微軟上線語音評測功能：基于Azure云構(gòu)建，賦能口語學(xué)習(xí)的教與學(xué)

本文作者：李菁瑛

2020-06-22 12:48

導(dǎo)語：微軟這匹“黑馬”的進(jìn)入，勢必會讓語音評測戰(zhàn)場的廝殺更為激烈。

近年來，隨著人工智能技術(shù)的不斷成熟，企業(yè)數(shù)字化轉(zhuǎn)型步伐的加快，AI的觸角逐漸深入到各個場景，使人類的生產(chǎn)生活變得更加智慧化。在聽覺方面，智能語音技術(shù)成為各大科技公司們攻堅的重要領(lǐng)域。

一家老牌科技巨頭微軟，在語音合成技術(shù)、語音識別技術(shù)上深耕多年，面向全球合作伙伴開放和落地其技術(shù)能力，提供多種智能語音解決方案。

5月中旬，在2020微軟Build開發(fā)者大會上，微軟上線了語音評測功能，該功能基于Azure語音服務(wù)Speech-to-text（語音轉(zhuǎn)文本）構(gòu)建。用戶可以上傳跟讀文本和音頻對發(fā)音人的語音從準(zhǔn)確度，流利度和完整度進(jìn)行評測。在教育領(lǐng)域，尤其是口語學(xué)習(xí)方面，因具有高識別準(zhǔn)確率、擬專家打分的高一致性，可以讓口語學(xué)習(xí)的教和學(xué)更加高效方便。

近日，微軟亞太研發(fā)集團(tuán)智能語音團(tuán)隊接受了雷鋒網(wǎng)等媒體的線上采訪，對微軟智能語音評測技術(shù)的優(yōu)勢和應(yīng)用場景等內(nèi)容進(jìn)行了詳細(xì)介紹。

微軟亞太研發(fā)集團(tuán)云計算與人工智能事業(yè)部產(chǎn)品總監(jiān)丁秉公、微軟亞太研發(fā)集團(tuán)云計算與人工智能事業(yè)部資深產(chǎn)品經(jīng)理馬莉莎參與了本次采訪。

語音評測的四個維度

微軟亞太研發(fā)集團(tuán)云計算與人工智能事業(yè)部資深產(chǎn)品經(jīng)理馬莉莎表示，目前語音評測市場需求的考量方向主要有四個維度：

專業(yè)性。
實時性。
穩(wěn)定性。
可定制性。

對于專業(yè)性，微軟語音評測的每個語言從10萬小時以上的母語大數(shù)據(jù)中學(xué)習(xí)當(dāng)?shù)卣Z言純正口音發(fā)音，針對各年齡段多維度精準(zhǔn)打分，從文章——句子——詞——音素四個環(huán)節(jié)，層層評估，擬專家團(tuán)打分一致性高。

微軟上線語音評測功能：基于Azure云構(gòu)建，賦能口語學(xué)習(xí)的教與學(xué)

馬莉莎提到，語音評測的專業(yè)性考量對比的是和母語專家評測的一致性。業(yè)內(nèi)通用皮爾森相關(guān)系數(shù)來反映兩個序列線性相關(guān)程度的統(tǒng)計量。范圍在-1到1之間，1表示完全相關(guān)，-1表示完全相反，0表示亂序無關(guān)，數(shù)值越大表示相關(guān)度越高。微軟語音評測在一致性上達(dá)到了0.75，與母語專家水平接近。

對于實時性，微軟語音評測支持音頻上傳流式處理，也就是邊朗讀邊處理，讀完立即反饋評估結(jié)果。

對于穩(wěn)定性，微軟語音評測基于NLP模型構(gòu)建模糊匹配文本，針對垂直領(lǐng)域的特定場景的容錯率有良好的包容性，漏讀、錯讀、重復(fù)讀不影響打分有效性與準(zhǔn)確性。

對于可定制性，ASR基礎(chǔ)模型與微軟在語音領(lǐng)域的全面技術(shù)能力，可以實現(xiàn)個性化評分標(biāo)準(zhǔn)，可適配口音、適配噪音環(huán)境以及適配年齡層等。

據(jù)了解，微軟語音評測除了支持英語評測外，還可擴(kuò)展支持全球 40 多個國家和地區(qū)的語言評測，廣泛適用于教育領(lǐng)域解決方案的合作伙伴、APP開發(fā)者以及語言學(xué)校、培訓(xùn)中心、教育機構(gòu)、考試中心的各種語言學(xué)習(xí)、口語練習(xí)和考試等場景的開發(fā)。

最大的技術(shù)難點在于多點平衡

語音評測能力，在教育領(lǐng)域主要的受眾人群包括老師、學(xué)生，通常被廣泛應(yīng)用于教師評估、作業(yè)練習(xí)和語言學(xué)習(xí)場景中。那么，對于口語學(xué)習(xí)，教育用戶的痛點是什么？語音評測最大的技術(shù)難點又是什么？

對此，馬莉莎表示，對于學(xué)生來說，他們的痛點在于非母語口語學(xué)習(xí)。學(xué)生們在學(xué)習(xí)新語言的過程中，如何及時準(zhǔn)確地給學(xué)生的發(fā)音進(jìn)行反饋，讓學(xué)生隨時隨地更方便地聯(lián)系對于提升口語學(xué)習(xí)的有效性至關(guān)重要。

對于學(xué)校和教育機構(gòu)來說，他們的痛點在于老師的資源有限，如何把現(xiàn)有的優(yōu)質(zhì)教師資源拓展到一個穩(wěn)定的教學(xué)系統(tǒng)里。因此，老師需要這樣一個能力，不僅能模擬母語專家打分，還能夠?qū)W習(xí)到老師們的評測方法，讓老師們可以使用評測高效地一對多給學(xué)生提供在線和線下的指導(dǎo)和幫助。

教育用戶的這些痛點，對語音評測技術(shù)提出了更高的要求。馬莉莎認(rèn)為，語音評測最大的技術(shù)難點在于語音識別技術(shù)本身，首先是多語言的理解和識別，不同的打分場景，包括噪聲環(huán)境、不同年齡段學(xué)生的發(fā)音情況等都要進(jìn)一步優(yōu)化。

其次就是要達(dá)到包容性和魯棒性（注：robust，技術(shù)術(shù)語，此處可理解為穩(wěn)健性或抗變性）的平衡。既要模型做得好、識別好，還要能夠動態(tài)、實時構(gòu)建，對大模型達(dá)到高實時地調(diào)用，而這些需求加起來就是難上加難了。

“在語音評測上我們的基礎(chǔ)儲備非常堅實，才能把方方面面做到比較好，以一個綜合的體現(xiàn)呈現(xiàn)給用戶，所以我們不是難在一個點上，而是多點平衡?！?/p>

據(jù)悉，積極探索數(shù)字化轉(zhuǎn)型和新教育模式的好未來，也是微軟語音評測功能的客戶之一。好未來AI科學(xué)家胡翔宇表示：

"如何快速而有效地針對不同學(xué)生進(jìn)行口語評測是我們在線上線下的英語教學(xué)中遇到的一大挑戰(zhàn)。微軟智能語音服務(wù)為好未來內(nèi)部以及我們的合作伙伴提供強大的實時語音評測能力。根據(jù)我們的測試，微軟語音服務(wù)的發(fā)音測評功能更好地適配了我們的收音環(huán)境，并且具備更高的一致性，更加貼近專家的評估結(jié)果。"

基于Azure云構(gòu)建的一種能力：算法、數(shù)據(jù)、算力

微軟亞太研發(fā)集團(tuán)云計算與人工智能事業(yè)部產(chǎn)品總監(jiān)丁秉公介紹，一般來說，我們看AI技術(shù)主要看三個方面：算法、數(shù)據(jù)、算力。從這三個方面來說，微軟的語音評測功能有自己獨特的優(yōu)勢。

在算法層面，微軟在智能語音領(lǐng)域深耕多年，其語音識別已經(jīng)達(dá)到人類的水平，錯誤率在5.1%左右，正是有了這個算法基礎(chǔ)，所以在語音識別延伸的應(yīng)用——語音評測方面能夠比較有信心。
在數(shù)據(jù)層面，依靠微軟在語音方面的多年積累，通過將近10萬多小時母語的數(shù)據(jù)進(jìn)行訓(xùn)練，最后學(xué)習(xí)到當(dāng)?shù)乇容^純正的口音。
在算力層面，語音評測所有的技術(shù)都是基于微軟Azure云構(gòu)建的，Azure是全球擁有數(shù)據(jù)中心最多、覆蓋區(qū)域最多的云，可支撐用戶大規(guī)模的計算需求。同時，Azure符合歐盟GDPR（《通用數(shù)據(jù)保護(hù)條例》）標(biāo)準(zhǔn)，保護(hù)用戶的數(shù)據(jù)安全性。

實際上，微軟語音評測不是一個具體的產(chǎn)品，而是基于Azure云構(gòu)建的一種能力。即以微軟Azure為平臺，將微軟在人工智能領(lǐng)域30年的研究成果，開放API給合作伙伴、獨立軟件開發(fā)商、系統(tǒng)集成商，為他們提供認(rèn)知服務(wù)之上的能力，從而進(jìn)一步做出適合各自領(lǐng)域的方案。

微軟上線語音評測功能：基于Azure云構(gòu)建，賦能口語學(xué)習(xí)的教與學(xué)

“可以打一個比方，如果微軟云是平臺的話，認(rèn)知服務(wù)就是這個平臺上提供給用戶智能的部分。就好像一個人有眼睛、耳朵、頭腦，認(rèn)知服務(wù)就是賦予想要在微軟Azure云上獲取這些能力的用戶，給他們提供擴(kuò)展能力”，丁秉公說道。

“所謂授之以魚不如授之以漁，我們提供這樣的能力或者工具之后，便于合作伙伴基于垂直領(lǐng)域里豐富的場景定制或開發(fā)相應(yīng)的解決方案以及產(chǎn)品，他們可以直接調(diào)取這樣的能力，而不需要從頭做任何人工智能方面的研究?！?/p>

據(jù)了解，目前，微軟語音評測的API有豐富的接口和參數(shù)，支持高實時率多并發(fā)調(diào)用。如果第三方想調(diào)用API，在前期評測環(huán)節(jié)是免費的，而進(jìn)入集成開發(fā)階段，會根據(jù)標(biāo)準(zhǔn)的Speech-To-Text（語音轉(zhuǎn)文本）服務(wù)的價格，按照評測音頻的時長來計費。

另外，丁秉公還提到，微軟Azure內(nèi)部有獨立的Microsoft Education團(tuán)隊，專門針對教育領(lǐng)域提供不同的解決方案。除了語音評測外，Azure云在教育領(lǐng)域還有很多已落地的應(yīng)用。

例如，疫情期間的“停課不停學(xué)”，讓微軟遠(yuǎn)程協(xié)作平臺Microsoft Teams被學(xué)生用來作為遠(yuǎn)程學(xué)習(xí)的工具，在教育領(lǐng)域被廣泛使用。
其次，在個性化教育方面，語音評測作為Azure上的服務(wù)，提供了個性化的打分能力，使在平臺上使用這個功能的用戶享受到屬于他自己的獨特服務(wù)。
第三，Azure的語音技術(shù)可以幫助合成AI老師，幫助教育機構(gòu)生成課件，解決教育資源稀缺的問題。
除此之外，語音技術(shù)還可以幫助一些視障和聽障學(xué)生更好地學(xué)習(xí)。

馬莉莎認(rèn)為，當(dāng)前全球的教育行業(yè)都在進(jìn)行數(shù)字化轉(zhuǎn)型，疫情的到來加速了教育行業(yè)的數(shù)字化和線上化。通過讓AI和云計算進(jìn)一步賦能教育行業(yè)，可以為學(xué)生提供多元化個性化的服務(wù)，打造一個更加智能的生態(tài)環(huán)境。

微軟在智能語音技術(shù)方面深耕多年，曾推出過多款耳熟能詳?shù)恼Z音產(chǎn)品，如微軟小娜（Cortana）、微軟小冰、Skype等，此次上線語音評測功能也是“順?biāo)浦邸敝e。語音評測市場，BAT和科大訊飛等科技巨頭爭相布局，微軟這匹“黑馬”的加入，勢必會讓語音評測戰(zhàn)場的廝殺更為激烈。（雷鋒網(wǎng)雷鋒網(wǎng)）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章