0
本文作者: camel | 2017-08-04 13:28 | 專題:ACL 2017 |
雷鋒網(wǎng) AI科技評論按:在昨天結(jié)束的ACL 2017大會的正會上,分別公布了今年的終身成就獎和五篇最佳論文獎。本篇文章雷鋒網(wǎng)將帶你一塊兒來解讀其中的最佳長論文《Probabilistic Typology: Deep Generative Models of Vowel Inventories》。
在了解這篇文章之前,首先需要了解一些語言類型學的知識。根據(jù)語言類型學的研究,發(fā)現(xiàn)任何一種人類語言都有元音,例如英語中的[i], [u], [?]等,把所有語言中的這些元音收集起來(目前收集的大概有600多個獨立的元音)就構(gòu)成了一個元音集合。這些元音通常情況下可以用其音頻的前兩個共振峰 (F1, F2)來表示,這樣就構(gòu)成了一個2維的元音空間。在這個空間中,每一個元音都可以用一個向量f(F1,F2)來表示。
在語言類型學中對于元音有兩個基本的定律:
其一,在一門語言中元音的音位必須相對較為分散,這樣才能讓聽者能夠很容易地辨別出它們,也即分散性。
其二,在所有語言中,并不是所有的元音都會出現(xiàn),有些元音出現(xiàn)的頻次較高,而有些則只在個別語言中出現(xiàn)或不出現(xiàn),即聚焦性。
本篇論文即想要通過神經(jīng)網(wǎng)絡(luò)學習方法來對元音空間構(gòu)建一個可訓(xùn)練的生成概率型分布方法,從而來研究語言類型學中的元音的分散性和聚焦性問題。
那么具體如何來研究呢?其實很簡單,就是選定一種概率評分方法。作者考察了三種評分方法,分別為伯努利點過程(BPP)、馬科夫點過程(MPP)和特征值點過程(DPP)。
其中第一種方法(伯努利點過程 )只是元音概率的乘積,所以只考慮了元音的聚焦性,而沒有考慮元音之間的分散程度。其公式為
第二種評分方法中,元音概率和前一種方法一致,但是同時考慮了元音之間的聚合程度,這種方法就彌補了前一種方法分散性的問題。其公式為
第三種評分方法,基本的考慮就是把兩個元音向量乘積所得作為其評分標準。整體來考慮的話就是所有元音向量乘積構(gòu)成的矩陣(稱為Gram矩陣)的行列式構(gòu)成其評分標準。其公式為
但是其中的向量e(vi)如何獲得呢?在此之前人們通常是使用人工的方法,通過一種音頻能量最優(yōu)解之類的方法來獲得。而作者此處選擇了神經(jīng)網(wǎng)絡(luò)訓(xùn)練的方法。首先,作者選用國際音標中的53個音標作為學習訓(xùn)練的數(shù)據(jù)集。然后分別選用三種神經(jīng)網(wǎng)絡(luò)嵌入學習方法——神經(jīng)嵌入(u)、可解釋神經(jīng)嵌入(i)、基于原型嵌入(p)。我們以神經(jīng)嵌入為例,文章中選用下面這個公式來獲得前饋神經(jīng)網(wǎng)絡(luò)
其中的f(vi)為元音向量,其他幾個參數(shù)向量都將是通過學習訓(xùn)練獲得,而e(vi)就是神經(jīng)嵌入學習的結(jié)果。
通過嵌入學習方法獲得的元音空間流形則能夠更好地反映每個元音的概率型。將嵌入學習的結(jié)果e(vi)代入到前面的評分標準中,即可以評價每一個元音的聚焦性和每一種語言中元音的分散性。
其試驗結(jié)果如下圖所示(第一行中數(shù)值越小越好,下面百分比則是越大越好),其中u代表沒有使用可解釋的神經(jīng)嵌入,i表示可解釋神經(jīng)嵌入,p表示基于原型的神經(jīng)嵌入。
在這篇文章之前,學者們研究元音的這兩個問題(分散性和聚焦性)通常是基于能量最優(yōu)化的方法,即認為元音的前兩個音頻能量差越小聚焦性就越大,不過這種方法沒法同時考慮分散性問題。而這篇文章通過概率打分可以輕而易舉地同時分析這兩個問題。
另外,為什么大部分語言包含的元音個數(shù)在5-7個之間呢?這也是傳統(tǒng)人工方法所不能解決的,而在這里通過競爭的方法可以挑選出所有潛在較優(yōu)(概率較大)的元音集。
當然,這篇文章中只使用了53種語言的元音作為數(shù)據(jù)集,而地球上目前有7105種語言,文章中的結(jié)果可能并不代表人類語言中元音的基本規(guī)律。不過沒關(guān)系,只要有數(shù)據(jù),按照同樣的范式做再做一遍就好了。
同樣的,這種使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練來生成概率的方法不是只能使用在人類語言中元音問題上的,它更具有普適性,我們可以用同樣的思路來研究語言中的輔音、詞性、句式等等。或許,這篇文章將是我們用人工智能方法來研究、優(yōu)化甚至創(chuàng)造語言的新起點。
我們知道在《權(quán)利的游戲》中東方大陸草原上有一個戰(zhàn)斗民族多斯拉克,他們說著我們誰都聽不懂的多斯拉克語。這種語言在《權(quán)利的游戲》播出之前是從來沒有在地球上出現(xiàn)過。它是由當時年僅28歲的語言學家大衛(wèi)·彼得森所創(chuàng)立。也許以后某一天,我們使用人工智能可以創(chuàng)造出更優(yōu)雅的新語言。
雷鋒網(wǎng)(公眾號:雷鋒網(wǎng)):查看原文
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章