4
本文作者: 思睿 | 2015-09-21 15:28 |
計算機語言學急劇改變了研究人員學習和理解語言的方式。利用數(shù)學運算處理大量詞語的方式,也讓我們開始以不同的角度思考單詞與詞語之間的關(guān)系,而這有望能讓機器理解人類的語言。
數(shù)字運算方式正好說明了一個詞語與另一個的關(guān)系有多么近,這也是關(guān)于它們?nèi)绾伪皇褂玫闹匾蛩?。Olympics(奧運會)這個詞可能會顯得與 running(跑)、jumping(跳) 和 throwing(扔) 之間有更多聯(lián)系,而與 electron(電子) 和 stegosaurus(劍龍) 就沒那么緊密了。這組詞語的關(guān)系可以被認為是一個多維向量,它描述了 Olympics 是如何在語言內(nèi)使用,它本身可以被認為是一個向量空間。
這種新方法讓語言像擁有精確數(shù)學特性的向量空間一樣被對待?,F(xiàn)在,語言學研究已經(jīng)轉(zhuǎn)變成為了研究數(shù)學向量空間的問題。如今,澳大利亞墨爾本大學的 Timothy Baldwin 和其合作伙伴開始探索向量空間的一個數(shù)學特性:在同一空間中加減向量,從而產(chǎn)生另一個向量。
他們討論的問題是:向量之間的拼合有什么意義?在探索這個問題的過程中,他們發(fā)現(xiàn)向量之間的差異,是學習語言和了解詞語之間關(guān)系上的強大工具。
了解如何思考這些詞語,并讓它們像向量一樣進行加減法,最簡單的方法是舉例子。比如下面兩個:
國王 - 男人+女人=女王。換句話說,在向量中加入相關(guān)的詞語“國王”和“女人”,與此同時減去“男人”,就等于與“女王”相關(guān)的向量。這描述了一種兩性的關(guān)系。
另一個例子是:巴黎-法國+波蘭=華沙。在這種例子中,巴黎和法國之間的矢量差異,能夠得出首都這一概念。
Timothy Baldwin 則探討了這種方法有多可靠和有效。根據(jù)詞語研究的語料庫數(shù)據(jù),他們比較了向量關(guān)系會如何改變。例如,他們會在維基百科、Google新聞、路透社新聞的詞語語料庫中,進行同樣的向量關(guān)系的研究。
為了找到答案,他們尋找了許多與分類詞語的關(guān)系相關(guān)聯(lián)的向量,包括實體及其部分之間的關(guān)系,如飛機和座艙;以及一個動作與所涉及對象之間的關(guān)系,例如狩獵和鹿;名詞和集體名詞,例如螞蟻和軍隊。研究還包括了一系列的語法聯(lián)系——名詞和它的復數(shù),如 dog 和 dogs;動詞和它的過去式,如 know 和 knew;動詞和第三人稱復數(shù),如 accept 和 accepts。
結(jié)果十分有趣。Baldwin 表示,在這些關(guān)系中抓取的全部向量,總體上在每個語料庫的向量空間中,都形成了緊密集群。
但也有一些有趣的異常值,在詞語有一個以上的含義時,就會在向量空間中產(chǎn)生有歧義的描述。在第三人稱復數(shù)集群的例子中,包括 study 和 studies,run 和 runs,increase 和 increases,所有這些單詞即可以作為名詞,也可以作為動詞,因此也會曲解這些向量。
這是一項有趣的工作,不過除了語言學研究,還有什么現(xiàn)實意義呢?一個顯而易見的答案是:幫助機器理解人類的語言。另外,幫助機器進行更好的語言翻譯。你可以已經(jīng)想到了兩個例子:微軟Skype實時翻譯,以及Google翻譯。
值得一提的是,在這一領(lǐng)域的開拓者和驅(qū)動力之一,就是 Google 和它的機器翻譯團隊。Google 發(fā)現(xiàn),出現(xiàn)在英語中的矢量關(guān)系,通常也適用于西班牙語、德語、越南語,以及其他所有的語言。
當然,由于語言擁有獨特本質(zhì),也有許多例外的情況,也正是這些特殊性導致了機器翻譯算法的問題。因此,尋找能夠找出詞語歧義性的方式,有望提供一種有效解決這些問題的方法。
via technologyreview
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。