會話轉錄可以實時進行？微軟研究新進展告訴你答案

本文作者：肖漫

2019-05-07 18:54

導語：新的會話轉錄功能擴展了微軟現有的Azure語音服務，支持實時、多人、遠場語音轉錄和說話人歸因。

雷鋒網按：會話轉錄能夠實時進行？而且還支持多人、遠場語音轉錄？是的，這些新的轉錄功能都是微軟研究所近期在口語處理上取得的新進展，雷鋒網將其文章全文編譯如下。

在強大的云計算基礎設施和大量訓練數據的支持下，深度學習算法如今已經成為了 AI 進化之旅的最重要驅動力。下面的幾個任務是語音和語言社區(qū)里廣泛使用的公開基準測試，在過去的三年里，微軟首次在這些任務上取得了可以和人類相媲美的表現。

2017：語音識別：對話語音轉錄任務(總機)

2018：機器翻譯：漢英新聞翻譯任務(WMT17)

2019：對話問答：斯坦福會話問答任務 (CoQA)

這些突破對從翻譯應用到智能揚聲器的眾多口語應用產生了深遠的影響。雖然現在市面上已經有了智能音箱，但大多數智能音箱一次只能處理一個人的語音指令，并且在發(fā)出這樣的指令之前，需要一個喚醒詞。微軟研究在Azure語音服務中加入了一些重大的技術突破，并提供了新的對話轉錄功能，該功能將在今天的預覽版中提供。通過微軟所引用的設備SDK (DDK)，純音頻或視聽麥克風陣列設備的可用性增強了這一功能。這是人工智能進化過程中的重要一步，因為幾十年來，環(huán)境遠場多人語音轉錄一直是科幻小說的主要內容。

新的會話轉錄功能擴展了微軟現有的Azure語音服務，支持實時、多人、遠場語音轉錄和說話人歸因。與語音DDK相結合，會話轉錄可以有效地識別房間里一小群人的會話語音，并生成一個處理常見但具有挑戰(zhàn)性的場景(如“串話”)的轉錄。

對于有興趣嘗試具有視頻功能的端到端轉錄解決方案的客戶，微軟正在與部門客戶和像Accenture、Avanade和Roobo這些的系統(tǒng)集成伙伴接洽，分別在美國和中國定制和整合對話轉錄解決方案。這種先進的能力類似于微軟在去年的構建中首次演示的功能。感興趣的企業(yè)可以向微軟申請預覽，體驗由人工智能支持的對話轉錄是如何提高協(xié)作力和生產力的。

會話轉錄功能夠利用多通道數據，包括來自代號為普林斯頓塔的語音DDK的音頻和視覺信號。邊緣設備是建立在微軟參考設計的360度音頻麥克風陣列或360度魚眼攝像頭的基礎上的，通過視聽融合來支持更好的轉錄。邊緣設備將信號發(fā)送到Azure 云端進行神經信號處理和語音識別。純音頻麥克風陣列DDKs可以從http://ddk.roobo.com購買。先進的視聽麥克風陣列DDKs可從微軟的系統(tǒng)集成合作伙伴處獲得。

微軟不斷創(chuàng)新去超越傳統(tǒng)的麥克風陣列和先進的視聽麥克風陣列DDKs。今天，微軟還公布了最新的研究進展(丹麥項目)，該項目利用一組現有的設備，如配備普通麥克風的手機或筆記本電腦，動態(tài)創(chuàng)建虛擬麥克風陣列。虛擬麥克風陣列將現有設備(如手機或筆記本電腦)與普通麥克風(如樂高積木)動態(tài)地組合成一個更大的陣列。丹麥項目可以幫助微軟的客戶更容易地使用Azure語音服務，隨時隨地轉錄對話，無論有沒有一個專門的麥克風陣列DDK。未來的應用程序場景是非常廣泛的。例如，我們可以對多個微軟翻譯器應用進行配對，以幫助多人更有效地使用移動電話進行溝通，從而將語言障礙降到最低?？梢栽?/Build Vision Keynote查看最新研究進展和演示。

會話轉錄可以實時進行？微軟研究新進展告訴你答案

【圖片來源：Microsoft Research Blog 所有者：Microsoft Research Blog 】

最后，如果有像縮略語這樣的專業(yè)詞匯，準確的語音轉錄是非常困難的。為了解決這個問題，微軟正在擴展Azure的自定義語音識別功能，并允許組織使用Office 365數據輕松地創(chuàng)建自定義語音模型。對于選擇使用該服務的Office 365企業(yè)客戶，Azure可以自動生成一個自定義模型，該模型利用Office 365中的聯系人、電子郵件和文檔等數據，以一種完全隔離、安全且兼容的方式進行操作，在組織特定的方言上提供了更準確的語音轉錄，如技術術語和人員姓名。對于有興趣嘗試這個新功能的客戶，微軟將為您的組織提供一個私人預覽，讓您從專用的和優(yōu)化的語音服務中獲益。

會話轉錄可以實時進行？微軟研究新進展告訴你答案

【圖片來源：Microsoft Research Blog 所有者：Microsoft Research Blog 】

微軟的Azure語音服務一直支持微軟自己的M365解決方案以及許多使用相同統(tǒng)一語音平臺的第三方客戶。從Allstate到小米，都開始利用Azure語音服務來加速他們的數字化轉型。微軟可以使用NLP技術進一步增強最終的自動會議記錄和Azure會話轉錄，例如機器翻譯、QA，去幫助客戶實現更多目標。

雷鋒網注：本文編譯自Microsoft Research Blog

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

肖漫

資深編輯

關注智能硬件、IoT、機器人 | 微信：Elena_Xiao1025

掃描關注作者微信

發(fā)私信

當月熱門文章

會話轉錄可以實時進行？微軟研究新進展告訴你答案

會話轉錄可以實時進行？微軟研究新進展告訴你答案