丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
新鮮 正文
發(fā)私信給思睿
發(fā)送

4

國王-男人+女人=女王:這是什么等式?

本文作者: 思睿 2015-09-21 15:28
導語:計算機語言學急劇地改變了研究人員學習和理解語言的方式。利用數(shù)學運算處理大量詞語的能力產(chǎn)生了思考單詞和詞語相互之間關(guān)系的全新方式。

國王-男人+女人=女王:這是什么等式?

計算機語言學急劇改變了研究人員學習和理解語言的方式。利用數(shù)學運算處理大量詞語的方式,也讓我們開始以不同的角度思考單詞與詞語之間的關(guān)系,而這有望能讓機器理解人類的語言。

數(shù)字運算方式正好說明了一個詞語與另一個的關(guān)系有多么近,這也是關(guān)于它們?nèi)绾伪皇褂玫闹匾蛩?。Olympics(奧運會)這個詞可能會顯得與 running(跑)、jumping(跳) 和 throwing(扔) 之間有更多聯(lián)系,而與 electron(電子) 和 stegosaurus(劍龍) 就沒那么緊密了。這組詞語的關(guān)系可以被認為是一個多維向量,它描述了 Olympics 是如何在語言內(nèi)使用,它本身可以被認為是一個向量空間。  

國王 - 男人+女人=女王

這種新方法讓語言像擁有精確數(shù)學特性的向量空間一樣被對待?,F(xiàn)在,語言學研究已經(jīng)轉(zhuǎn)變成為了研究數(shù)學向量空間的問題。如今,澳大利亞墨爾本大學的 Timothy Baldwin 和其合作伙伴開始探索向量空間的一個數(shù)學特性:在同一空間中加減向量,從而產(chǎn)生另一個向量。

他們討論的問題是:向量之間的拼合有什么意義?在探索這個問題的過程中,他們發(fā)現(xiàn)向量之間的差異,是學習語言和了解詞語之間關(guān)系上的強大工具。

了解如何思考這些詞語,并讓它們像向量一樣進行加減法,最簡單的方法是舉例子。比如下面兩個:

  • 國王 - 男人+女人=女王。換句話說,在向量中加入相關(guān)的詞語“國王”和“女人”,與此同時減去“男人”,就等于與“女王”相關(guān)的向量。這描述了一種兩性的關(guān)系。     

  • 另一個例子是:巴黎-法國+波蘭=華沙。在這種例子中,巴黎和法國之間的矢量差異,能夠得出首都這一概念。

Timothy Baldwin 則探討了這種方法有多可靠和有效。根據(jù)詞語研究的語料庫數(shù)據(jù),他們比較了向量關(guān)系會如何改變。例如,他們會在維基百科、Google新聞、路透社新聞的詞語語料庫中,進行同樣的向量關(guān)系的研究。

為了找到答案,他們尋找了許多與分類詞語的關(guān)系相關(guān)聯(lián)的向量,包括實體及其部分之間的關(guān)系,如飛機和座艙;以及一個動作與所涉及對象之間的關(guān)系,例如狩獵和鹿;名詞和集體名詞,例如螞蟻和軍隊。研究還包括了一系列的語法聯(lián)系——名詞和它的復數(shù),如 dog 和 dogs;動詞和它的過去式,如 know 和 knew;動詞和第三人稱復數(shù),如 accept 和 accepts。

國王-男人+女人=女王:這是什么等式?

讓機器理解語言

結(jié)果十分有趣。Baldwin 表示,在這些關(guān)系中抓取的全部向量,總體上在每個語料庫的向量空間中,都形成了緊密集群。

但也有一些有趣的異常值,在詞語有一個以上的含義時,就會在向量空間中產(chǎn)生有歧義的描述。在第三人稱復數(shù)集群的例子中,包括 study 和 studies,run 和 runs,increase 和 increases,所有這些單詞即可以作為名詞,也可以作為動詞,因此也會曲解這些向量。

這是一項有趣的工作,不過除了語言學研究,還有什么現(xiàn)實意義呢?一個顯而易見的答案是:幫助機器理解人類的語言。另外,幫助機器進行更好的語言翻譯。你可以已經(jīng)想到了兩個例子:微軟Skype實時翻譯,以及Google翻譯。

值得一提的是,在這一領(lǐng)域的開拓者和驅(qū)動力之一,就是 Google 和它的機器翻譯團隊。Google 發(fā)現(xiàn),出現(xiàn)在英語中的矢量關(guān)系,通常也適用于西班牙語、德語、越南語,以及其他所有的語言。

當然,由于語言擁有獨特本質(zhì),也有許多例外的情況,也正是這些特殊性導致了機器翻譯算法的問題。因此,尋找能夠找出詞語歧義性的方式,有望提供一種有效解決這些問題的方法。

via technologyreview

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

專業(yè)投稿

微信:ID_Travis
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說