0
雷鋒網(wǎng)AI科技評論按:在單詞和短語之間進(jìn)行語音區(qū)分,如區(qū)分「I'm hear」和「I'm here」或區(qū)分「I can't so but tons」和「I can't sew buttons」,這樣的事情每個(gè)人都遇到,尤其是遇到自動更正的短信、社交媒體上的帖子之類的時(shí)候。盡管乍看之下,語音相似性似乎只能對可聽單詞進(jìn)行量化,但這個(gè)問題常常出現(xiàn)在純文本空間中。
如何對語音相似的漢語拼音進(jìn)行研究呢?IBM 研究院的研究人員們發(fā)展了一種學(xué)習(xí)漢語 n 維語音編碼的方法,并可以推廣到許多其他不容易適應(yīng)英語語音模式的語言中。雷鋒網(wǎng) AI 科技評論編譯。
語音相似詞對
用 AI 的方法分析和理解文本需要干凈的輸入數(shù)據(jù),而這又意味著需要花費(fèi)相當(dāng)?shù)木υ紨?shù)據(jù)做預(yù)處理。不正確的同音詞和同義詞,無論是無意拼錯還是在玩笑中使用,都必須像其他形式的拼寫或語法錯誤一樣進(jìn)行糾正。在上面的例子中準(zhǔn)確地將「here」和「so」這兩個(gè)單詞轉(zhuǎn)換為和它們語音上相似的正確對應(yīng)的單詞需要一種單詞對之間語音相似性的魯棒的表示。
大多數(shù)語音相似性算法是由英語的使用場景驅(qū)動的,并設(shè)計(jì)用于印歐語系。然而,許多語言,如漢語,有不同的語音結(jié)構(gòu)。漢語的官方羅馬化系統(tǒng)拼音,用單音節(jié)來表示漢字的語音。拼音音節(jié)包括:(可選的)聲母(如 「b」、「zh」、「x」)、韻母(如「a」、「ou」、「wai」或「yuan」)和音調(diào)(有五個(gè))。將這些語音映射到英語音素會導(dǎo)致相當(dāng)不準(zhǔn)確的表達(dá),并且使用印歐語音相似性算法進(jìn)一步加劇了這一問題。例如,兩個(gè)著名的算法,Soundex 和 Double Metaphone,會在忽略元音的同時(shí)索引輔音(并且沒有音調(diào)的概念)。
拼音
由于一個(gè)拼音音節(jié)平均代表七個(gè)不同的漢字,所以同音字在數(shù)量上甚至大于英語。同時(shí),無論是在使用語音到文本時(shí)還是在直接鍵入時(shí),拼音用于文本創(chuàng)建在移動和聊天應(yīng)用程序中非常普遍,因?yàn)檩斎肫匆粢艄?jié)并選擇預(yù)期的字符更為實(shí)用。因此,基于語音的輸入錯誤非常常見,凸顯了用非常精確的語音相似性算法來糾正錯誤的需求。
可視化表示拼音縮寫的語音編碼
受這個(gè)使用場景的啟發(fā),IBM 研究院的研究人員們發(fā)展了一種學(xué)習(xí)漢語 n 維語音編碼的方法,這個(gè)使用場景還可以推廣到許多其他不容易適應(yīng)英語語音模式的語言。拼音的一大特點(diǎn)是韻母、聲母和聲調(diào)三個(gè)因素應(yīng)獨(dú)立考慮和比較。例如,拼音對 {「xie2」、「Xue2」} 和 {「lie2」、「lue2」} 中即便聲母不同,韻母「ie」和「ue」以及聲調(diào)仍然可以是相同的。因此,一對拼音音節(jié)的相似性是聲母、韻母和聲調(diào)之間相似性的集合。
然而,人為地將編碼空間限制到低維 (例如,把每種聲母各自劃分為不同的類別,或者用不同的數(shù)值表示) 限制了捕獲語音變化的準(zhǔn)確性。因此,正確的、數(shù)據(jù)驅(qū)動的方法是慢慢地學(xué)習(xí)適當(dāng)維度的編碼。該學(xué)習(xí)模型通過聯(lián)合考慮拼音語言特征,如發(fā)音地點(diǎn)和發(fā)音方法,以及高質(zhì)量的帶注釋的訓(xùn)練數(shù)據(jù)集,來獲得準(zhǔn)確的編碼。
對現(xiàn)有語音相似性方法的 7.5 倍改進(jìn)
因此,學(xué)習(xí)到的編碼可以用于,例如,接受單詞作為輸入,并返回語音相似單詞的排序列表 (語音相似性依次降低)。排名很重要,因?yàn)橄掠螒?yīng)用程序不會擴(kuò)展到考慮每個(gè)單詞的大量替代候選,尤其是在實(shí)時(shí)運(yùn)行時(shí)。作為一個(gè)真實(shí)世界的例子,IBM 研究院評估了為來自社交媒體數(shù)據(jù)集的 350 個(gè)中文單詞中的每個(gè)單詞生成候選排序列表的方法,并且展示了比現(xiàn)有語音相似性方法的 7.5 倍的改進(jìn)。
IBM 研究院希望這項(xiàng)工作對于代表語言特定的語音相似性所產(chǎn)生的改進(jìn),有助于許多多語言自然語言處理應(yīng)用的質(zhì)量。這項(xiàng)工作是 IBM 研究系統(tǒng)項(xiàng)目的一部分,最近在計(jì)算自然語言學(xué)習(xí)的 2018 屆 SIMLL 會議上發(fā)表,預(yù)訓(xùn)練的中文模型可供研究人員在聊天室、消息應(yīng)用程序、拼寫檢查程序和其他任何方面的應(yīng)用程序上使用。
雷鋒網(wǎng) AI 科技評論編譯。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。