丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

阿里 iDST 新人「物理學家」馮津偉:聲學設計與語音信號處理,是 AI 算法的核心前提

本文作者: 奕欣 編輯:楊曉凡 2017-11-30 10:56
導語:世界級聲學專家、原寶利通(Polycom)聲學設計與信號處理首席工程師馮津偉博士于近期加入阿里巴巴 iDST,擔任語音交互團隊研究員。

雷鋒網(wǎng) AI 科技評論按:阿里巴巴人工智能核心團隊 iDST 近期又將一名頂級大牛納入麾下——世界級聲學專家、原寶利通(Polycom)聲學設計與信號處理首席工程師馮津偉博士于近期加入阿里巴巴 iDST,擔任語音交互團隊研究員。

據(jù)悉,他的研究方向是「下一代人機自然交互技術」,該領域已得到阿里巴巴重點投入,「達摩院」的研究范圍就包含了這一方向。

阿里 iDST 新人「物理學家」馮津偉:聲學設計與語音信號處理,是 AI 算法的核心前提

馮津偉博士本科畢業(yè)于南京大學電子科學專業(yè),先后在南京大學攻讀聲學(1992-1995)及南洋理工大學電子信號處理的碩士學位(1996-1997),隨后赴美深造,于 2000 年獲得弗吉尼亞理工大學聲學博士學位。馮津偉博士畢業(yè)后一直在音視頻會議行業(yè)領先者寶利通擔任聲學設計和信號處理首席工程師(Principal Engineer),擁有十余項美國專利,大部分已產(chǎn)品化,是世界級的音頻專家,主持開發(fā)視頻跟蹤系統(tǒng)等創(chuàng)新產(chǎn)品,多次領業(yè)界之先。

在傳統(tǒng)行業(yè)耕耘 17 年的頂級工程師、專注研究聲學的「物理學家」,緣何會加入阿里巴巴這樣一個新興互聯(lián)網(wǎng)企業(yè)?加入阿里巴巴 iDST,他又將如何把自己的老本行與目前已有的業(yè)務進行融合?抱著這些疑問,雷鋒網(wǎng) AI 科技評論與遠在美國西雅圖的馮津偉博士進行了一次電話交流,他向 AI 科技評論闡述了加入阿里巴巴 iDST 的原因與期待。

作為專業(yè)開發(fā)、制造和銷售高質(zhì)量音視頻會議系統(tǒng)及解決方案的提供商,寶利通的多代會議產(chǎn)品曾經(jīng)一度占據(jù) 90% 以上的市場份額。在這背后,以 2000 年加入寶利通工作的馮津偉博士為代表,他主導開發(fā)的圓形麥克風陣列算法與音頻信號分類器成為沿用至今的業(yè)界標桿。

而 17 年過去,包括寶利通在內(nèi)的傳統(tǒng)行業(yè)發(fā)生了新的變化。身處其中的馮津偉博士向雷鋒網(wǎng) AI 科技評論坦言,他從中看到了新興互聯(lián)網(wǎng)企業(yè)的高速發(fā)展,這也是他選擇加入阿里巴巴 iDST 的一個重要原因。

「我加入阿里,也反映了互聯(lián)網(wǎng)行業(yè)與傳統(tǒng)行業(yè)的一種融合變遷?!勾送?,馮津偉博士也表示,阿里巴巴的價值觀與他個人的想法不謀而合,這種契合也讓他對這家公司產(chǎn)生了特別的好感,并促使他最終加入阿里巴巴 iDST。

「我第一次了解阿里巴巴時,發(fā)現(xiàn)它們家的產(chǎn)品名字都非常有趣,比如金融叫螞蟻金服,物流叫菜鳥物流,音樂叫蝦米音樂,信用叫芝麻信用。(這些名字)很親切很討人喜歡,我認為這個命名思維的出發(fā)點是為普通百姓服務。我本身也是一個『草根』,因此覺得阿里巴巴的想法非常地貼近我的價值觀?!?/p>

從傳統(tǒng)行業(yè)加入阿里巴巴 iDST,馮津偉博士的主要工作又是什么呢?馮津偉博士告訴 AI 科技評論,他與阿里 iDST 的交集,就是自己的老本行——聲學設計與信號處理的有機結合。

一個完整的語音識別系統(tǒng)需要通過前端的聲學設計,進行信號的采集、處理,再通過后端的相關算法進行識別。任何一個語音產(chǎn)品要投入使用,最主要的挑戰(zhàn)依然是端上語音信號的采集和處理。

今年 7 月,阿里巴巴發(fā)布智能音箱天貓精靈 X1,其中的聲紋識別功能便是其中的一大賣點。這項連亞馬遜 Echo 都不具備的功能,一大難點就在于遠場語音識別在實際應用中存在不少問題,受到噪聲、回聲、混響的干擾太大。而聲紋識別,很大程度上又是一種基于數(shù)據(jù)驅(qū)動的模式識別問題。像遠場的混響、噪聲問題,還有雞尾酒效應問題,都是非常常見的信號處理難點。只有在特定環(huán)境中盡可能地保證聲音的高保真度,才能為后續(xù)的算法處理提供高質(zhì)量的數(shù)據(jù)。試想,如果收集到的聲音信號都非常模糊,談何后續(xù)的語音識別、合成甚至是同聲傳譯?

而馮津偉博士的就學經(jīng)歷正好涉及了聲學與信號處理這兩個領域,而他在博士畢業(yè)后一直在寶利通工作,在這兩個領域的結合上擁有深厚的理論研究經(jīng)驗與實踐應用經(jīng)歷。

寶利通在上世紀 80、90 年代就開始做聲學設計與信號處理的相關研究,至今已經(jīng)擁有二三十年的技術沉淀,馮津偉博士表示,最重要的一點就是在于老當家在聲學設計上頗為重視,特別在減小失真上做到了極致。在最鼎盛的時期,寶利通的全球市場份額達到了 90% 以上。

「聲學設計與信號處理兩者的有機融合是非常必要的。我們以前經(jīng)常跟做聲學的公司打交道,有些音頻失真到 10%,但沒有人重視,因為企業(yè)覺得人耳聽不出來。但是我們的麥克風聽得出來,所以回波抵消就有可能成為問題。因此,我們不能只是處理線性問題,而對非線性問題不夠上心。這兩方面都需要懂,性能才可以更好地體現(xiàn)出來?!?/p>

加入阿里之后,馮津偉博士在傳統(tǒng)行業(yè)的聲學設計經(jīng)驗可以完美地與阿里的業(yè)務相銜接。聲學設計與信號處理作為前端信號處理的主要技術,毫無疑問將會為阿里巴巴的整個語音識別系統(tǒng)奠定堅實的數(shù)據(jù)基礎。

馮津偉博士表示,以「達摩院」為代表的研究機構逐步建立,阿里巴巴的研發(fā)實力肯定會比以前更上一層樓,并且可能會看到很多與眾不同的創(chuàng)新,「現(xiàn)在的智能音箱實際上跟著亞馬遜 Echo 走的很多,但阿里巴巴不一定會沿著它的老路,我們甚至可以引領行業(yè)。」

近年來,隨著深度學習的興起,以谷歌 WaveNet 為代表的技術甚至嘗試顛覆傳統(tǒng)的基于信息及控制論的信號處理與生成方法。對于人工智能的迅猛發(fā)展,馮津偉博士一方面嘆服時代趨勢的驚人變化,認為 AI 的不斷發(fā)展終究會逐步取代原有的信號處理技術;但基于現(xiàn)實狀況來看,他又認為這一天仍未那么早到來。

一方面,有很多人用麥克風原有的尺度去 PCM(Pulse-code modulation,脈沖編碼調(diào)制),直接引入神經(jīng)網(wǎng)絡進行訓練,但效果并不理想。這種研究在目前來看依然需要一定的時間,就像語音識別一樣,從 90 年代開始,直到近幾年才大規(guī)模商用起來;計算機視覺也同樣花了近 20 年才實現(xiàn)騰飛,同樣地,采用神經(jīng)網(wǎng)絡來做信號處理也需要經(jīng)歷這樣一個厚積薄發(fā)的過程。

而另一方面,神經(jīng)網(wǎng)絡擅長處理非線性的工作;而一些線性的工作,在前端的信號處理階段就可以用很低的成本解決。以回撥抵消為例,相對于提升 AI 算法而言,我們解決前者的成本與資源要小得多。也就是說,在做過前端信號處理后,我們可以大大降低后續(xù) AI 在算法處理上的非線性工作量。從成本這個角度來看,前端信號處理還是有它存在的必要的。

在 2017 杭州云棲大會上,馮津偉教授聽了不少教授、專家的演講,其中有人與自己的想法一致:語音系統(tǒng)的算法只是一部分,在實際應用領域,更重要的一環(huán)是聲學設計,要從源頭上保證數(shù)據(jù)的采集質(zhì)量。「在源頭上追溯整條數(shù)據(jù)鏈,如果有某個環(huán)節(jié)很弱,那么就會『牽一發(fā)而動全身』,甚至使鏈條斷掉?!?/p>

馮津偉博士告訴雷鋒網(wǎng) AI 科技評論,阿里巴巴的一大核心競爭力在于,從源頭到鏈條的最后一環(huán),從聲學設計、到前端信號處理,到 AI 識別算法三大模塊,阿里巴巴在每環(huán)技術都有自己的獨立研發(fā)團隊。

「我們擁有完整的數(shù)據(jù)鏈,在每個模塊上我們基本上都有一支小團隊,可以實現(xiàn)獨立研發(fā)。在這之后,我們可以把三大模塊更緊密地融合在一起。結合聲學設計與信號處理的從業(yè)經(jīng)歷,我相信三個環(huán)節(jié)可以做到無縫融合。」阿里巴巴全鏈條、多業(yè)務、多線程的研發(fā)模式,在馮津偉博士看來是構建了一個完善的生態(tài)系統(tǒng),在做細分項目的時候也很容易把各個部分的技術結合起來。

另一個令馮津偉博士深深認同的地方在于阿里巴巴具有優(yōu)秀的核心團隊?!脯F(xiàn)在我們有五個跨越全球的語音小組(北京、杭州、西雅圖、硅谷、新加坡),擁有世界一流的團隊,聚集著世界一流的人才。阿里 iDST 中有非常多優(yōu)秀的科學家與工程師,我自己也非常高興,能夠在與他們共事的過程中提升自己?!?/p>

馮津偉博士告訴雷鋒網(wǎng) AI 科技評論,加入阿里巴巴 iDST 后,他計劃帶領團隊,結合自己豐富的從業(yè)經(jīng)驗,把聲學設計與信號處理有機地融合起來,并且把每一個環(huán)節(jié)做到極致,「業(yè)余與專業(yè)的區(qū)別就在于細節(jié),如果要做到行業(yè)領先,我們就要把每個細節(jié)做到完美,做到最好。」雷鋒網(wǎng) AI 科技評論也期待,馮津偉博士未來在阿里的產(chǎn)品上,能給我們帶來更多的體驗驚喜。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知

阿里 iDST 新人「物理學家」馮津偉:聲學設計與語音信號處理,是 AI 算法的核心前提

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說