0
本文作者: 肖漫 | 2019-05-07 18:54 |
雷鋒網(wǎng)按:會話轉(zhuǎn)錄能夠?qū)崟r進(jìn)行?而且還支持多人、遠(yuǎn)場語音轉(zhuǎn)錄?是的,這些新的轉(zhuǎn)錄功能都是微軟研究所近期在口語處理上取得的新進(jìn)展,雷鋒網(wǎng)將其文章全文編譯如下。
在強大的云計算基礎(chǔ)設(shè)施和大量訓(xùn)練數(shù)據(jù)的支持下,深度學(xué)習(xí)算法如今已經(jīng)成為了 AI 進(jìn)化之旅的最重要驅(qū)動力。下面的幾個任務(wù)是語音和語言社區(qū)里廣泛使用的公開基準(zhǔn)測試,在過去的三年里,微軟首次在這些任務(wù)上取得了可以和人類相媲美的表現(xiàn)。
2017:語音識別:對話語音轉(zhuǎn)錄任務(wù)(總機(jī))
2018:機(jī)器翻譯:漢英新聞翻譯任務(wù)(WMT17)
2019:對話問答:斯坦福會話問答任務(wù) (CoQA)
這些突破對從翻譯應(yīng)用到智能揚聲器的眾多口語應(yīng)用產(chǎn)生了深遠(yuǎn)的影響。雖然現(xiàn)在市面上已經(jīng)有了智能音箱,但大多數(shù)智能音箱一次只能處理一個人的語音指令,并且在發(fā)出這樣的指令之前,需要一個喚醒詞。微軟研究在Azure語音服務(wù)中加入了一些重大的技術(shù)突破,并提供了新的對話轉(zhuǎn)錄功能,該功能將在今天的預(yù)覽版中提供。通過微軟所引用的設(shè)備SDK (DDK),純音頻或視聽麥克風(fēng)陣列設(shè)備的可用性增強了這一功能。這是人工智能進(jìn)化過程中的重要一步,因為幾十年來,環(huán)境遠(yuǎn)場多人語音轉(zhuǎn)錄一直是科幻小說的主要內(nèi)容。
新的會話轉(zhuǎn)錄功能擴(kuò)展了微軟現(xiàn)有的Azure語音服務(wù),支持實時、多人、遠(yuǎn)場語音轉(zhuǎn)錄和說話人歸因。與語音DDK相結(jié)合,會話轉(zhuǎn)錄可以有效地識別房間里一小群人的會話語音,并生成一個處理常見但具有挑戰(zhàn)性的場景(如“串話”)的轉(zhuǎn)錄。
對于有興趣嘗試具有視頻功能的端到端轉(zhuǎn)錄解決方案的客戶,微軟正在與部門客戶和像Accenture、Avanade和Roobo這些的系統(tǒng)集成伙伴接洽,分別在美國和中國定制和整合對話轉(zhuǎn)錄解決方案。這種先進(jìn)的能力類似于微軟在去年的構(gòu)建中首次演示的功能。感興趣的企業(yè)可以向微軟申請預(yù)覽,體驗由人工智能支持的對話轉(zhuǎn)錄是如何提高協(xié)作力和生產(chǎn)力的。
會話轉(zhuǎn)錄功能夠利用多通道數(shù)據(jù),包括來自代號為普林斯頓塔的語音DDK的音頻和視覺信號。邊緣設(shè)備是建立在微軟參考設(shè)計的360度音頻麥克風(fēng)陣列或360度魚眼攝像頭的基礎(chǔ)上的,通過視聽融合來支持更好的轉(zhuǎn)錄。邊緣設(shè)備將信號發(fā)送到Azure 云端進(jìn)行神經(jīng)信號處理和語音識別。純音頻麥克風(fēng)陣列DDKs可以從http://ddk.roobo.com購買。先進(jìn)的視聽麥克風(fēng)陣列DDKs可從微軟的系統(tǒng)集成合作伙伴處獲得。
微軟不斷創(chuàng)新去超越傳統(tǒng)的麥克風(fēng)陣列和先進(jìn)的視聽麥克風(fēng)陣列DDKs。今天,微軟還公布了最新的研究進(jìn)展(丹麥項目),該項目利用一組現(xiàn)有的設(shè)備,如配備普通麥克風(fēng)的手機(jī)或筆記本電腦,動態(tài)創(chuàng)建虛擬麥克風(fēng)陣列。虛擬麥克風(fēng)陣列將現(xiàn)有設(shè)備(如手機(jī)或筆記本電腦)與普通麥克風(fēng)(如樂高積木)動態(tài)地組合成一個更大的陣列。丹麥項目可以幫助微軟的客戶更容易地使用Azure語音服務(wù),隨時隨地轉(zhuǎn)錄對話,無論有沒有一個專門的麥克風(fēng)陣列DDK。未來的應(yīng)用程序場景是非常廣泛的。例如,我們可以對多個微軟翻譯器應(yīng)用進(jìn)行配對,以幫助多人更有效地使用移動電話進(jìn)行溝通,從而將語言障礙降到最低??梢栽?/Build Vision Keynote查看最新研究進(jìn)展和演示。
【 圖片來源:Microsoft Research Blog 所有者:Microsoft Research Blog 】
最后,如果有像縮略語這樣的專業(yè)詞匯,準(zhǔn)確的語音轉(zhuǎn)錄是非常困難的。為了解決這個問題,微軟正在擴(kuò)展Azure的自定義語音識別功能,并允許組織使用Office 365數(shù)據(jù)輕松地創(chuàng)建自定義語音模型。對于選擇使用該服務(wù)的Office 365企業(yè)客戶,Azure可以自動生成一個自定義模型,該模型利用Office 365中的聯(lián)系人、電子郵件和文檔等數(shù)據(jù),以一種完全隔離、安全且兼容的方式進(jìn)行操作,在組織特定的方言上提供了更準(zhǔn)確的語音轉(zhuǎn)錄,如技術(shù)術(shù)語和人員姓名。對于有興趣嘗試這個新功能的客戶,微軟將為您的組織提供一個私人預(yù)覽,讓您從專用的和優(yōu)化的語音服務(wù)中獲益。
【 圖片來源:Microsoft Research Blog 所有者:Microsoft Research Blog 】
微軟的Azure語音服務(wù)一直支持微軟自己的M365解決方案以及許多使用相同統(tǒng)一語音平臺的第三方客戶。從Allstate到小米,都開始利用Azure語音服務(wù)來加速他們的數(shù)字化轉(zhuǎn)型。 微軟可以使用NLP技術(shù)進(jìn)一步增強最終的自動會議記錄和Azure會話轉(zhuǎn)錄,例如機(jī)器翻譯、QA,去幫助客戶實現(xiàn)更多目標(biāo)。
雷鋒網(wǎng)注:本文編譯自Microsoft Research Blog
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。