0
本文作者: 楊麗 | 2020-08-24 10:59 |
近些年,深度學(xué)習(xí)給語(yǔ)音交互的性能和研究方法帶來(lái)了極大進(jìn)步。
但進(jìn)步并不意味著就沒有挑戰(zhàn)。語(yǔ)音識(shí)別的精度總在不斷刷新,卻并沒有達(dá)到用戶使用體驗(yàn)的門檻。
思必馳聯(lián)合創(chuàng)始人、首席科學(xué)家俞凱堅(jiān)定地認(rèn)為,大規(guī)模可定制的對(duì)話式語(yǔ)音交互技術(shù)已經(jīng)到來(lái)。而當(dāng)下,他所負(fù)責(zé)的學(xué)術(shù)與企業(yè)兩支隊(duì)伍正分別規(guī)劃著長(zhǎng)遠(yuǎn)期目標(biāo)。
“語(yǔ)音識(shí)別的某些指標(biāo)已經(jīng)很高了,但往往是在受控的領(lǐng)域,在真實(shí)情況下,尤其是長(zhǎng)尾的非配合語(yǔ)音識(shí)別領(lǐng)域還有很多問(wèn)題待解決。同時(shí),未來(lái)對(duì)大規(guī)??啥ㄖ频男枨髸?huì)越來(lái)越高?!?/p>
俞凱表示,當(dāng)下語(yǔ)音技術(shù)供應(yīng)商要針對(duì)更多長(zhǎng)尾的場(chǎng)景提供定制模型,效果會(huì)變得更好,但這種情況不可持續(xù),一定是會(huì)通過(guò)某些技術(shù)上的突破。當(dāng)然,這種技術(shù)突破同樣也會(huì)跟通用語(yǔ)音識(shí)別的發(fā)展相輔相成,如果通用語(yǔ)音識(shí)別的(準(zhǔn)確率)特別高了,那可能就不需要定制了。但從目前來(lái)看,定制是不可避免的。
在他看來(lái),目前對(duì)話技術(shù)要做的,是對(duì)原有的更新替代和升級(jí),不單單是語(yǔ)音識(shí)別技術(shù),還有合成、語(yǔ)義理解、對(duì)話管理等一整套對(duì)話技術(shù)。
根據(jù)當(dāng)下語(yǔ)音行業(yè)所面臨的問(wèn)題,給出針對(duì)性解決思路,同時(shí)在技術(shù)研究的大方向上予以充分探索的機(jī)會(huì),可能是當(dāng)下科學(xué)家們予以的長(zhǎng)期樂(lè)觀主義做法。
思必馳聯(lián)合創(chuàng)始人、首席科學(xué)家俞凱
在剛剛過(guò)去的CCF-GAIR 2020全球人工智能與機(jī)器人大會(huì)上,雷鋒網(wǎng)采訪到了俞凱教授,了解對(duì)話式語(yǔ)音交互技術(shù)的最近研究進(jìn)展,了解這位學(xué)者、科學(xué)家、產(chǎn)業(yè)從業(yè)者對(duì)當(dāng)下語(yǔ)音交互技術(shù)最難落地的場(chǎng)景的思考。
以下為雷鋒網(wǎng)專訪實(shí)錄:
Q:大家對(duì)深度學(xué)習(xí)的不可解釋性容忍度越來(lái)越小,此次您主要分享了端到端的研究方法,并嘗試從通過(guò)引入先驗(yàn)知識(shí),以彌補(bǔ)不可解釋性的問(wèn)題。該研究方法目前在工業(yè)界的落地情況是怎樣的?最大的挑戰(zhàn)是什么?
俞凱:半監(jiān)督的方法很早就在工業(yè)界落地了,現(xiàn)在幾乎所有的工業(yè)界都在使用半監(jiān)督及生成數(shù)據(jù)訓(xùn)練。但目前情況是,工業(yè)界落地的都是最簡(jiǎn)單的方法,比如說(shuō)解碼、執(zhí)行度選擇等等,主要還是在小規(guī)模數(shù)據(jù)上的落地效果比較明顯。
而到了萬(wàn)小時(shí)(語(yǔ)音)數(shù)據(jù)上,這個(gè)方法的效果不夠高,是目前比較明顯的一個(gè)通病。基本上就是處于一個(gè)“大家意識(shí)到很重要但還沒有完全解決”的過(guò)程中。如果這件事情能有所突破,對(duì)未來(lái)的影響還是很大的。思必馳也是近一兩年開始研究。
Q:之前針對(duì)消費(fèi)者個(gè)人的交互數(shù)據(jù)進(jìn)行學(xué)習(xí)存在很大的挑戰(zhàn),但如果放在企業(yè)所產(chǎn)生的交互數(shù)據(jù)進(jìn)行學(xué)習(xí),可能更為場(chǎng)景化,也相對(duì)比較好提???
俞凱:從算法角度來(lái)講是沒有差異的,用的都是同樣的方法。不過(guò),企業(yè)中的數(shù)據(jù)積累量會(huì)比較大,場(chǎng)景會(huì)比較單一,相比之下,消費(fèi)級(jí)的場(chǎng)景其實(shí)更為分散。從這個(gè)意義上講,企業(yè)級(jí)得到的平均效果可能會(huì)好一些。
Q:就我們所了解到的,疫情期間的疫情防控機(jī)器人、智能聲控電梯、智能交互大屏等。從思必馳最近一年的探索上,服務(wù)于企業(yè)級(jí)用戶方面,主要有了哪些層面的突破?
俞凱:大規(guī)??啥ㄖ剖呛苤匾囊稽c(diǎn)。
任何一個(gè)單一系統(tǒng),用傳統(tǒng)方法在有數(shù)據(jù)、環(huán)境可控的情況下,做的都還不錯(cuò)。但問(wèn)題在于,你有多少這樣的可控環(huán)境和足夠的數(shù)據(jù)?
思必馳在智能服務(wù)方面,提供了全鏈路對(duì)話,無(wú)論是外呼機(jī)器人,還是內(nèi)部質(zhì)檢、IVR導(dǎo)航等解決方案,都做到了大規(guī)??啥ㄖ?,使得不懂語(yǔ)音技術(shù)或懂得比較少的人,能夠只通過(guò)少量的數(shù)據(jù)傳輸和相應(yīng)的場(chǎng)景描述就可以快速做到可定制。這里面既有工程層面的產(chǎn)品可定制,也有技術(shù)層面的,將算法集成并形成一套工具,能通過(guò)小數(shù)據(jù)推行算法,能快速構(gòu)建語(yǔ)義解析器,構(gòu)建系統(tǒng)邏輯、生成。
思必馳在某些單項(xiàng)技術(shù)上已遠(yuǎn)超過(guò)同行,在對(duì)話方面,以及整體鏈路系統(tǒng)的定制速度、效率的綜合實(shí)力上,也是相對(duì)會(huì)有一定的優(yōu)勢(shì)??偨Y(jié)來(lái)講,思必馳在智能語(yǔ)音和對(duì)話技術(shù)供應(yīng)商的角度變得更加專業(yè),在規(guī)?;卣沟哪芰ι弦沧兊酶鼜?qiáng)了。
Q:您認(rèn)為從智能家居、汽車到金融、醫(yī)療、工業(yè)等行業(yè),語(yǔ)音交互技術(shù)最理想的落地行業(yè)是哪些?在落地過(guò)程中最大的挑戰(zhàn)又會(huì)是什么?
俞凱:語(yǔ)音是個(gè)賦能型技術(shù),我認(rèn)為并不存在某一個(gè)最理想的行業(yè)。比如,IoT的落地并不是因?yàn)檎Z(yǔ)音技術(shù)成熟,而是對(duì)人機(jī)對(duì)話的剛需。此外還有泛智能設(shè)備,金融、政務(wù)、醫(yī)療、教育等垂直領(lǐng)域的認(rèn)知信息服務(wù),都會(huì)跟對(duì)話交互結(jié)合在一起。
目前解決方案一方面會(huì)采取私有化的部署方式,另一方面,會(huì)在不影響響數(shù)據(jù)安全和隱私的情況下,跨不同的域進(jìn)行機(jī)器學(xué)習(xí)或推理,比方說(shuō)聯(lián)邦學(xué)習(xí),就是最典型的一類概念。
Q:在語(yǔ)音交互技術(shù)的總體研究進(jìn)展上,您認(rèn)為過(guò)去5年比較有代表性的研究成果有哪些?
俞凱:最有代表性的是,抗噪語(yǔ)音識(shí)別識(shí)別率的提升方面,出現(xiàn)了一系列新形態(tài)的識(shí)別的網(wǎng)絡(luò)和準(zhǔn)則。比如思必馳做了極深的卷積神經(jīng)網(wǎng)絡(luò)(VDCNN),以解決單通道收集的語(yǔ)音,通過(guò)語(yǔ)音分離來(lái)解決“雞尾酒會(huì)效應(yīng)”,以及端到端的語(yǔ)音識(shí)別的架構(gòu)等。
二是效率方面。以端到端架構(gòu)和神經(jīng)網(wǎng)絡(luò)模型的壓縮兩項(xiàng)技術(shù)為代表,使得語(yǔ)音識(shí)別的效率大幅提升。例如,訓(xùn)練一個(gè)超大的語(yǔ)音識(shí)別系統(tǒng),如果用N-gram訓(xùn)練,之前要大概占10G,現(xiàn)在大概用200MB就可以了,甚至可以更??;再比如喚醒模型的訓(xùn)練,過(guò)去計(jì)算可能需要1秒,經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)的壓縮、系數(shù)化等工程的實(shí)現(xiàn),就會(huì)變到只有100毫秒。
三是語(yǔ)音合成方面,最大的進(jìn)展是序列的、端到端的語(yǔ)義合成。以Tacotron、FastSpeech等結(jié)構(gòu)為代表,將序列到序列的深度學(xué)習(xí)引入,形成極高質(zhì)量的語(yǔ)音合成,人基本聽不出語(yǔ)音合成和人之間的差別,尤其在韻律效果上得到了極大的改善。
四是自然語(yǔ)言處理方面。預(yù)訓(xùn)練、無(wú)監(jiān)督數(shù)據(jù)訓(xùn)練模型的出現(xiàn),使得語(yǔ)義理解得到了極大的提升。
五是統(tǒng)計(jì)對(duì)話管理,或稱為數(shù)據(jù)驅(qū)動(dòng)的決策系統(tǒng)。從感知到認(rèn)知的變化,比如利用強(qiáng)化學(xué)習(xí)在對(duì)話管理里,變得更加成熟。
Q:目前多模態(tài)也是智能語(yǔ)音技術(shù)落地的探索方向之一,想要實(shí)現(xiàn)理想狀態(tài)下的多模態(tài)交互,您認(rèn)為有哪些問(wèn)題需要解決?
俞凱:多模態(tài)最大的問(wèn)題有這么幾類:
一是語(yǔ)義空間不統(tǒng)一?,F(xiàn)在基本是單模態(tài)+融合模塊,真正意義上應(yīng)該是跨模態(tài),即在單模態(tài)處理的同時(shí),用到其他模態(tài)的信息。
二是各個(gè)模態(tài)不同的數(shù)據(jù)集還不夠豐富。在研究界和企業(yè)界還沒有海量的量級(jí),這個(gè)海量指的是企業(yè)級(jí)在萬(wàn)小時(shí)以上,研究級(jí)在千小時(shí)以上。
三是要弄明白多模態(tài)究竟能用來(lái)解決什么任務(wù),很多情況下是在封閉的場(chǎng)景中,而且這個(gè)場(chǎng)景不泛化。這就導(dǎo)致多模態(tài)現(xiàn)在研究的任務(wù)還不夠清晰,缺乏一個(gè)像傳統(tǒng)語(yǔ)音識(shí)別或合成這樣的典型任務(wù)。
當(dāng)然,這個(gè)問(wèn)題出現(xiàn)的本質(zhì)還是成本太高,如果多模態(tài)能夠?qū)⒄Z(yǔ)音識(shí)別率精度提高,有人愿意買單,這樣數(shù)據(jù)就來(lái)了,場(chǎng)景也來(lái)了。這個(gè)場(chǎng)景閉環(huán)已經(jīng)有一些趨勢(shì),比如車載就是一個(gè)比較典型的場(chǎng)景,還有一些特定場(chǎng)景,如地鐵售票機(jī)等。
Q:人工智能現(xiàn)在進(jìn)入新階段了,市場(chǎng)和企業(yè)更加追求算法落地。您既作為思必馳的首席科學(xué)家,又同樣是聯(lián)合創(chuàng)始人的身份。(您或者您帶領(lǐng)的實(shí)驗(yàn)室)取得了哪些成績(jī)?
俞凱:聯(lián)合實(shí)驗(yàn)室最大的優(yōu)勢(shì),就是把企業(yè)的技術(shù)問(wèn)題和訴求與持續(xù)的基礎(chǔ)創(chuàng)新,在高校里面的持續(xù)技術(shù)創(chuàng)新比較緊密地綁定在一起,在解決企業(yè)最核心的技術(shù)問(wèn)題的同時(shí),指導(dǎo)企業(yè)的思考和研究方向。
大規(guī)模可定制,從長(zhǎng)遠(yuǎn)看再過(guò)兩三年會(huì)有新的變化,已經(jīng)在聯(lián)合實(shí)驗(yàn)室里預(yù)演了。
思必馳-上海交大智能人機(jī)交互聯(lián)合實(shí)驗(yàn)室,就是這樣一個(gè)深度綁定的實(shí)驗(yàn)室。一是研究的問(wèn)題關(guān)聯(lián)度比較高,二是有明確的知識(shí)產(chǎn)權(quán)的保護(hù),相關(guān)技術(shù)成果和知識(shí)產(chǎn)權(quán)由思必馳所有并轉(zhuǎn)化,同時(shí)又能允許學(xué)術(shù)研究者做論文發(fā)表并聚焦于前沿的技術(shù)探索。
實(shí)驗(yàn)室和企業(yè)在研究方向上是完全一樣的,只是說(shuō)本身節(jié)奏不同,實(shí)驗(yàn)室更為前瞻性一點(diǎn),所以面臨的技術(shù)風(fēng)險(xiǎn)也會(huì)更大。
Q:最近一年以來(lái),我們看到的現(xiàn)實(shí)情況是,國(guó)內(nèi)外很多AI領(lǐng)域的專家離開企業(yè),重新回歸學(xué)術(shù)研究、教學(xué)講堂,您認(rèn)為當(dāng)下人工智能產(chǎn)業(yè)發(fā)展遇到瓶頸了嗎?
俞凱:并沒有。專家們回到學(xué)校,本質(zhì)上可能會(huì)有這些原因:學(xué)校和企業(yè)在研發(fā)上面是有著不同節(jié)奏的,而有些企業(yè)里的研發(fā)和產(chǎn)品部門是割裂的;同時(shí),企業(yè)對(duì)學(xué)術(shù)專家的期望值也很高且缺乏耐心,希望專家能在短期內(nèi)對(duì)企業(yè)有所實(shí)質(zhì)性的貢獻(xiàn)。這時(shí),學(xué)者們就更傾向于回到學(xué)校自己去探索,要么是自己出來(lái)創(chuàng)業(yè)。
Q:在人才培養(yǎng)方面,您認(rèn)為當(dāng)下國(guó)內(nèi)語(yǔ)音/人工智能技術(shù)的培養(yǎng)模式,跟您當(dāng)年那個(gè)時(shí)代相比有哪些不同嗎?
俞凱:我們目前模式的優(yōu)勢(shì)是在于交大比較好的支持和思必馳發(fā)展歷史過(guò)程中形成的超緊密的聯(lián)合。這不是一般的聯(lián)合實(shí)驗(yàn)室,而是將一個(gè)學(xué)術(shù)的研究方向與企業(yè)的核心問(wèn)題緊密結(jié)合在一起,形成了一個(gè)極小角度的合力,這樣一種比較有效的組織方式。這種組織方式既依賴于制度如知識(shí)產(chǎn)權(quán),也依賴于人。
Q:學(xué)生/研究員們選擇專業(yè)、擇業(yè),就您的觀察看,他們最為關(guān)注的是什么?
俞凱:人工智能近些年比較火,大家都想學(xué),可能也正因如此,會(huì)有一種略微浮躁的氣氛。人才的職業(yè)取向也無(wú)非三種:高薪酬,或許有時(shí)不一定與所能貢獻(xiàn)的價(jià)值相匹配;認(rèn)定語(yǔ)音是潛力行業(yè),并希望落地成為事業(yè)的;還有一種是認(rèn)為不一定長(zhǎng)久,但更希望在研究方面有所突破,專心搞科學(xué)研究的人。
(雷鋒網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。