丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

谷歌讓機器更懂語言的博大精深,發(fā)布最大消歧語料庫

本文作者: 奕欣 2017-01-19 11:58
導(dǎo)語:領(lǐng)導(dǎo):「你這是什么意思?」下屬:「沒什么意思,意思意思?!?

谷歌讓機器更懂語言的博大精深,發(fā)布最大消歧語料庫

理解語言的核心自然是了解詞語在文本中的不同含義。雷鋒網(wǎng)先說個中文笑話先:

領(lǐng)導(dǎo):「你這是什么意思?」

下屬:「沒什么意思,意思意思?!?/p>

領(lǐng)導(dǎo):「你這就不夠意思了?!?/p>

下屬:「小意思,小意思?!?/p>

領(lǐng)導(dǎo):「你這人真有意思?!?/p>

下屬:「其實也沒有別的意思?!?/p>

領(lǐng)導(dǎo):「那我就不好意思了?!?/p>

下屬:「是我不好意思?!?/p>

如果讓機器來理解這些到底是什么意思,想必它也會頭疼的吧。

谷歌讓機器更懂語言的博大精深,發(fā)布最大消歧語料庫

那么用相對簡單的英文?也沒有那么簡單。畢竟一個單詞可能包括數(shù)十個意思。

舉個例子:「he will receive stock in the reorganized company」,這個句子中,我們結(jié)合上下詞就能知道,「stock」在這里是股票的意思,我們可以從牛津字典中找到更為專業(yè)的解釋。

但是同樣在牛津字典中,stock 這個詞還有超過 10 個不同的含義,比如「(商店里的)庫存」或是「(鞭子、釣竿等的) 柄」。對于計算機算法而言,如何從博大精深的含義中找尋某個句子中對應(yīng)的詞義?這的確是一個詞義消歧難題,也就是 AI-Complete 問題。

雷鋒網(wǎng)消息,今天谷歌研究院又發(fā)出了重磅新聞,他們發(fā)布了基于 MASC&SemCor 數(shù)據(jù)集的大規(guī)模有監(jiān)督詞義消歧語料。這些語料會與牛津字典上的例句做映照,廣泛適用于各個社區(qū)。與此同時,本次發(fā)布也是最大的全句釋義語料庫之一。

有監(jiān)督詞義消歧

人們通過對句子中詞語的內(nèi)容進行理解,因為我們能通過常識判斷上下文的含義。比如同樣一個例子,「『stock』 in a business」代表的自然是股票的意思,而「『stock』 in a bodega」更有可能是庫存的意思,即使這里的 bodega 也可能指酒窖生意。我們希望為機器提供足夠的背景信息,并應(yīng)用于理解文本中詞語的含義。

有監(jiān)督詞義消歧(WSD)嘗試解決這一問題,也就是讓機器學(xué)習(xí)使用人工標記的數(shù)據(jù),并與字典中的詞語所代表的典型含義匹配。我們希望構(gòu)建這樣的一個監(jiān)督模型,能夠不考慮復(fù)雜語境,并匹配句中單詞在詞典中最可能表達的含義。雖然這一點富有挑戰(zhàn),但監(jiān)督模型在大量訓(xùn)練數(shù)據(jù)支持下表現(xiàn)良好。

通過發(fā)布數(shù)據(jù)集,我們希望社區(qū)能夠提出更好的算法,讓機器對自然語言產(chǎn)生更深刻的理解,支持以下的應(yīng)用:

  • 從文本中自動搭建數(shù)據(jù)庫存,這樣一來,機器可以回答問題,并將文檔中的知識串聯(lián)起來。舉個例子,機器在經(jīng)過學(xué)習(xí)后,明白「hemi engine」指的是一種自動化的機械;而「locomotive engine」則與火車有關(guān)。也能理解「Kanye West is a star」指的是名人的意思;而「Sirius is a star」則是天文學(xué)概念。

  • 消除歧義。我們希望讓文本在查詢中能夠呈現(xiàn)不同的含義,避免張冠李戴,與此同時還能返回具有相關(guān)語義的文檔。

人工注釋

在我們?nèi)斯擞浀臄?shù)據(jù)集中,每一個詞義注釋都由五個評估者進行審核。為了確保質(zhì)量,這些評估者會進行訓(xùn)練(gold annotation),即讓語言學(xué)家們對一些研究樣本進行標記。以下是我們的標記頁面。

谷歌讓機器更懂語言的博大精深,發(fā)布最大消歧語料庫

在頁面左邊呈現(xiàn)的是 general 的常用詞義及例句,在右側(cè)的文本中,general 一詞會高亮顯示。除了匹配詞義外,評估者還能對詞語進行判斷,可以指出包括「拼寫錯誤」、「上述情況都不符合」、「不確定」等三種情況。此外,評估者可以對一些含有隱喻的詞語進行標記并評論。

這些人工的詞義標注采用了 Krippendorff's alpha (α >= 0.67 則具有一定可信度,α >= 0.80 則表示具有很高的可信度) 進行判斷,結(jié)果顯示得分為 0.869。雷鋒網(wǎng)認為這是一個非常不錯的成績了。

谷歌讓機器更懂語言的博大精深,發(fā)布最大消歧語料庫

Wordnet Mappings

與此同時,谷歌也發(fā)布了兩個從牛津詞典到 Wordnet 的映射。小的數(shù)據(jù)集中含有 2200 個單詞,而大的數(shù)據(jù)集則是算法構(gòu)建的。這兩個映射內(nèi)容能夠更好地將 Wordnet 的內(nèi)容應(yīng)用于牛津詞典的語料庫中,也能夠在使用過程中實現(xiàn)系統(tǒng)的構(gòu)建。

以上研究成果已經(jīng)收錄在「Semi-supervised Word Sense Disambiguation with Neural Models」中,主要采用的是 LSTM 語言處理模型及半監(jiān)督學(xué)習(xí)算法。

Via google blog,雷鋒網(wǎng)編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

谷歌讓機器更懂語言的博大精深,發(fā)布最大消歧語料庫

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說