丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給楊麗
發(fā)送

0

專訪思必馳俞凱:大規(guī)??啥ㄖ频膶υ捠秸Z音交互,已經(jīng)來臨

本文作者: 楊麗 2020-08-24 10:59
導語:挑戰(zhàn)與機遇并存的語音行業(yè)

近些年,深度學習給語音交互的性能和研究方法帶來了極大進步。

但進步并不意味著就沒有挑戰(zhàn)。語音識別的精度總在不斷刷新,卻并沒有達到用戶使用體驗的門檻。

思必馳聯(lián)合創(chuàng)始人、首席科學家俞凱堅定地認為,大規(guī)??啥ㄖ频膶υ捠秸Z音交互技術已經(jīng)到來。而當下,他所負責的學術與企業(yè)兩支隊伍正分別規(guī)劃著長遠期目標。

“語音識別的某些指標已經(jīng)很高了,但往往是在受控的領域,在真實情況下,尤其是長尾的非配合語音識別領域還有很多問題待解決。同時,未來對大規(guī)??啥ㄖ频男枨髸絹碓礁??!?/p>

俞凱表示,當下語音技術供應商要針對更多長尾的場景提供定制模型,效果會變得更好,但這種情況不可持續(xù),一定是會通過某些技術上的突破。當然,這種技術突破同樣也會跟通用語音識別的發(fā)展相輔相成,如果通用語音識別的(準確率)特別高了,那可能就不需要定制了。但從目前來看,定制是不可避免的。

在他看來,目前對話技術要做的,是對原有的更新替代和升級,不單單是語音識別技術,還有合成、語義理解、對話管理等一整套對話技術。

根據(jù)當下語音行業(yè)所面臨的問題,給出針對性解決思路,同時在技術研究的大方向上予以充分探索的機會,可能是當下科學家們予以的長期樂觀主義做法。

專訪思必馳俞凱:大規(guī)??啥ㄖ频膶υ捠秸Z音交互,已經(jīng)來臨

思必馳聯(lián)合創(chuàng)始人、首席科學家俞凱

在剛剛過去的CCF-GAIR 2020全球人工智能與機器人大會上,雷鋒網(wǎng)采訪到了俞凱教授,了解對話式語音交互技術的最近研究進展,了解這位學者、科學家、產(chǎn)業(yè)從業(yè)者對當下語音交互技術最難落地的場景的思考。

以下為雷鋒網(wǎng)專訪實錄:

Q:大家對深度學習的不可解釋性容忍度越來越小,此次您主要分享了端到端的研究方法,并嘗試從通過引入先驗知識,以彌補不可解釋性的問題。該研究方法目前在工業(yè)界的落地情況是怎樣的?最大的挑戰(zhàn)是什么?

俞凱:半監(jiān)督的方法很早就在工業(yè)界落地了,現(xiàn)在幾乎所有的工業(yè)界都在使用半監(jiān)督及生成數(shù)據(jù)訓練。但目前情況是,工業(yè)界落地的都是最簡單的方法,比如說解碼、執(zhí)行度選擇等等,主要還是在小規(guī)模數(shù)據(jù)上的落地效果比較明顯。

而到了萬小時(語音)數(shù)據(jù)上,這個方法的效果不夠高,是目前比較明顯的一個通病。基本上就是處于一個“大家意識到很重要但還沒有完全解決”的過程中。如果這件事情能有所突破,對未來的影響還是很大的。思必馳也是近一兩年開始研究。

Q:之前針對消費者個人的交互數(shù)據(jù)進行學習存在很大的挑戰(zhàn),但如果放在企業(yè)所產(chǎn)生的交互數(shù)據(jù)進行學習,可能更為場景化,也相對比較好提???

俞凱:從算法角度來講是沒有差異的,用的都是同樣的方法。不過,企業(yè)中的數(shù)據(jù)積累量會比較大,場景會比較單一,相比之下,消費級的場景其實更為分散。從這個意義上講,企業(yè)級得到的平均效果可能會好一些。

Q:就我們所了解到的,疫情期間的疫情防控機器人、智能聲控電梯、智能交互大屏等。從思必馳最近一年的探索上,服務于企業(yè)級用戶方面,主要有了哪些層面的突破?

俞凱:大規(guī)模可定制是很重要的一點。

任何一個單一系統(tǒng),用傳統(tǒng)方法在有數(shù)據(jù)、環(huán)境可控的情況下,做的都還不錯。但問題在于,你有多少這樣的可控環(huán)境和足夠的數(shù)據(jù)?

思必馳在智能服務方面,提供了全鏈路對話,無論是外呼機器人,還是內(nèi)部質檢、IVR導航等解決方案,都做到了大規(guī)??啥ㄖ疲沟貌欢Z音技術或懂得比較少的人,能夠只通過少量的數(shù)據(jù)傳輸和相應的場景描述就可以快速做到可定制。這里面既有工程層面的產(chǎn)品可定制,也有技術層面的,將算法集成并形成一套工具,能通過小數(shù)據(jù)推行算法,能快速構建語義解析器,構建系統(tǒng)邏輯、生成。

思必馳在某些單項技術上已遠超過同行,在對話方面,以及整體鏈路系統(tǒng)的定制速度、效率的綜合實力上,也是相對會有一定的優(yōu)勢??偨Y來講,思必馳在智能語音和對話技術供應商的角度變得更加專業(yè),在規(guī)?;卣沟哪芰ι弦沧兊酶鼜娏?。

Q:您認為從智能家居、汽車到金融、醫(yī)療、工業(yè)等行業(yè),語音交互技術最理想的落地行業(yè)是哪些?在落地過程中最大的挑戰(zhàn)又會是什么?

俞凱:語音是個賦能型技術,我認為并不存在某一個最理想的行業(yè)。比如,IoT的落地并不是因為語音技術成熟,而是對人機對話的剛需。此外還有泛智能設備,金融、政務、醫(yī)療、教育等垂直領域的認知信息服務,都會跟對話交互結合在一起。

目前解決方案一方面會采取私有化的部署方式,另一方面,會在不影響響數(shù)據(jù)安全和隱私的情況下,跨不同的域進行機器學習或推理,比方說聯(lián)邦學習,就是最典型的一類概念。

Q:在語音交互技術的總體研究進展上,您認為過去5年比較有代表性的研究成果有哪些?

俞凱:最有代表性的是,抗噪語音識別識別率的提升方面,出現(xiàn)了一系列新形態(tài)的識別的網(wǎng)絡和準則。比如思必馳做了極深的卷積神經(jīng)網(wǎng)絡(VDCNN),以解決單通道收集的語音,通過語音分離來解決“雞尾酒會效應”,以及端到端的語音識別的架構等。

二是效率方面。以端到端架構和神經(jīng)網(wǎng)絡模型的壓縮兩項技術為代表,使得語音識別的效率大幅提升。例如,訓練一個超大的語音識別系統(tǒng),如果用N-gram訓練,之前要大概占10G,現(xiàn)在大概用200MB就可以了,甚至可以更??;再比如喚醒模型的訓練,過去計算可能需要1秒,經(jīng)過神經(jīng)網(wǎng)絡的壓縮、系數(shù)化等工程的實現(xiàn),就會變到只有100毫秒。

三是語音合成方面,最大的進展是序列的、端到端的語義合成。以Tacotron、FastSpeech等結構為代表,將序列到序列的深度學習引入,形成極高質量的語音合成,人基本聽不出語音合成和人之間的差別,尤其在韻律效果上得到了極大的改善。

四是自然語言處理方面。預訓練、無監(jiān)督數(shù)據(jù)訓練模型的出現(xiàn),使得語義理解得到了極大的提升。

五是統(tǒng)計對話管理,或稱為數(shù)據(jù)驅動的決策系統(tǒng)。從感知到認知的變化,比如利用強化學習在對話管理里,變得更加成熟。

Q:目前多模態(tài)也是智能語音技術落地的探索方向之一,想要實現(xiàn)理想狀態(tài)下的多模態(tài)交互,您認為有哪些問題需要解決?

俞凱:多模態(tài)最大的問題有這么幾類:

一是語義空間不統(tǒng)一?,F(xiàn)在基本是單模態(tài)+融合模塊,真正意義上應該是跨模態(tài),即在單模態(tài)處理的同時,用到其他模態(tài)的信息。

二是各個模態(tài)不同的數(shù)據(jù)集還不夠豐富。在研究界和企業(yè)界還沒有海量的量級,這個海量指的是企業(yè)級在萬小時以上,研究級在千小時以上。

三是要弄明白多模態(tài)究竟能用來解決什么任務,很多情況下是在封閉的場景中,而且這個場景不泛化。這就導致多模態(tài)現(xiàn)在研究的任務還不夠清晰,缺乏一個像傳統(tǒng)語音識別或合成這樣的典型任務。

當然,這個問題出現(xiàn)的本質還是成本太高,如果多模態(tài)能夠將語音識別率精度提高,有人愿意買單,這樣數(shù)據(jù)就來了,場景也來了。這個場景閉環(huán)已經(jīng)有一些趨勢,比如車載就是一個比較典型的場景,還有一些特定場景,如地鐵售票機等。

Q:人工智能現(xiàn)在進入新階段了,市場和企業(yè)更加追求算法落地。您既作為思必馳的首席科學家,又同樣是聯(lián)合創(chuàng)始人的身份。(您或者您帶領的實驗室)取得了哪些成績?

俞凱:聯(lián)合實驗室最大的優(yōu)勢,就是把企業(yè)的技術問題和訴求與持續(xù)的基礎創(chuàng)新,在高校里面的持續(xù)技術創(chuàng)新比較緊密地綁定在一起,在解決企業(yè)最核心的技術問題的同時,指導企業(yè)的思考和研究方向。

大規(guī)??啥ㄖ?,從長遠看再過兩三年會有新的變化,已經(jīng)在聯(lián)合實驗室里預演了。

思必馳-上海交大智能人機交互聯(lián)合實驗室,就是這樣一個深度綁定的實驗室。一是研究的問題關聯(lián)度比較高,二是有明確的知識產(chǎn)權的保護,相關技術成果和知識產(chǎn)權由思必馳所有并轉化,同時又能允許學術研究者做論文發(fā)表并聚焦于前沿的技術探索。

實驗室和企業(yè)在研究方向上是完全一樣的,只是說本身節(jié)奏不同,實驗室更為前瞻性一點,所以面臨的技術風險也會更大。

Q:最近一年以來,我們看到的現(xiàn)實情況是,國內(nèi)外很多AI領域的專家離開企業(yè),重新回歸學術研究、教學講堂,您認為當下人工智能產(chǎn)業(yè)發(fā)展遇到瓶頸了嗎?

俞凱:并沒有。專家們回到學校,本質上可能會有這些原因:學校和企業(yè)在研發(fā)上面是有著不同節(jié)奏的,而有些企業(yè)里的研發(fā)和產(chǎn)品部門是割裂的;同時,企業(yè)對學術專家的期望值也很高且缺乏耐心,希望專家能在短期內(nèi)對企業(yè)有所實質性的貢獻。這時,學者們就更傾向于回到學校自己去探索,要么是自己出來創(chuàng)業(yè)。

Q:在人才培養(yǎng)方面,您認為當下國內(nèi)語音/人工智能技術的培養(yǎng)模式,跟您當年那個時代相比有哪些不同嗎?

俞凱:我們目前模式的優(yōu)勢是在于交大比較好的支持和思必馳發(fā)展歷史過程中形成的超緊密的聯(lián)合。這不是一般的聯(lián)合實驗室,而是將一個學術的研究方向與企業(yè)的核心問題緊密結合在一起,形成了一個極小角度的合力,這樣一種比較有效的組織方式。這種組織方式既依賴于制度如知識產(chǎn)權,也依賴于人。

Q:學生/研究員們選擇專業(yè)、擇業(yè),就您的觀察看,他們最為關注的是什么?

俞凱:人工智能近些年比較火,大家都想學,可能也正因如此,會有一種略微浮躁的氣氛。人才的職業(yè)取向也無非三種:高薪酬,或許有時不一定與所能貢獻的價值相匹配;認定語音是潛力行業(yè),并希望落地成為事業(yè)的;還有一種是認為不一定長久,但更希望在研究方面有所突破,專心搞科學研究的人。

(雷鋒網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

專訪思必馳俞凱:大規(guī)??啥ㄖ频膶υ捠秸Z音交互,已經(jīng)來臨

分享:
相關文章

高級主筆

關注企業(yè)軟件、操作系統(tǒng)、云原生(PaaS)、數(shù)據(jù)中臺 | 微信:leeyangamber
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說