「我想要MAC」說的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

本文作者：楊曉凡

編輯：郭奕欣

2018-02-11 15:40

導語：結合知識庫的實體辨別

雷鋒網 AI 科技評論按：語言詞匯的多義性已經是一個越發(fā)讓人頭疼的問題。比如女生對男朋友說：“生日禮物我想要MAC”，本來心懷期待地揣測他買來的唇彩會是什么色，結果收到的可能是一臺蘋果筆記本電腦…… 蘋果電腦本身當然并沒有哪里不好，但詞語指代弄混的時候還是挺讓人難受的。

人類尚且有理解不對詞語類別的時候，人工智能自然也還沒能攻克這個問題。不過雷鋒網 AI 科技評論了解到，OpenAI 近期新設計的 AI 在結合上下文的詞語判別上做出了突破，測試中的表現(xiàn)相比已有的其它 AI 也有了大幅提升。

「我想要MAC」說的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

「The prey saw the jaguar across the jungle」（獵物看到了穿越叢林的美洲豹）

「我想要MAC」說的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

「The man saw a Jaguar speed on the highway」（這個人看到美洲豹奔馳在高速公路上）

OpenAI 在近期的一篇論文中介紹了自己新設計的神經網絡 Type，它可以嘗試理解句子中的單詞，把它歸類到大約一百個自動學到的非獨占性類別中。OpenAI 想到的典型例子是「jaguar」或者「美洲豹」，比如對于上面兩個句子，這個系統(tǒng)不會立即把兩個「jaguar」都統(tǒng)一判定為跑車、動物或者別的東西中的某一種，而是依據預選擇的類別解一組 20 個貝葉斯問題，推理得到判斷結果。相比之前的系統(tǒng)，Type 在數(shù)個實體分辨（entity disambiguation）數(shù)據庫上的測試結果都有大幅提升。

在 OpenAI 的訓練數(shù)據中，「jaguar」這個詞大概有 70% 的情況是指跑車，29% 的情況是指動物，還有 1% 的情況是指美洲豹攻擊機。根據 Type 判斷，「The man saw a Jaguar speed on the highway」中的「jaguar」的各種語義出現(xiàn)的可能性變化并不大，看起來模型覺得一只大貓在高速公路上跑步也沒什么不妥；但「The prey saw the jaguar across the jungle」中，模型的判斷就發(fā)生了很大變化，非?？隙ㄟ@是一只大貓，畢竟捷豹跑車根本不適合在森林里開。

模型在 CoNLL（YAGO）數(shù)據集上的測試準確率為 94.88%，此前的頂級模型的表現(xiàn)為 91.5% 和 91.7%；在 TAC KBP 2010 挑戰(zhàn)賽數(shù)據集上的準確率為 90.85%，此前的頂級模型的表現(xiàn)為 87.2% 和 87.7%。之前的這些方法使用的是分布式表征，OpenAI 的 Type 在這些任務中都有顯著的提升，距離完美的類別預測準確率 98.6% 到 99% 越來越近。

Type 總體介紹

這個系統(tǒng)以如下的步驟運行：

從單詞的維基百科頁面提取所有的內鏈，確定這個詞可能指代的實體都有什么。比如，對于 https://en.wikipedia.org/wiki/Jaguar 這個維基百科的鏈接，經過分析之后確定這個頁面的內容確實是「jaguar」這個詞的一個意思。
爬維基百科的分類樹（借助 Wikidata 的知識圖），從而確定每一個實體都能被歸入哪些類別。比如在 https://en.wikipedia.org/wiki/Jaguar_Cars 捷豹汽車的頁面底部，有下面「英國品牌」、「汽車品牌」、「捷豹汽車」幾個類別分類（而且每個類別都還有自己所屬的類別，比如屬于汽車）
選出大約 100 個類別作為模型的類別系統(tǒng)，然后優(yōu)化對類別的選擇，以便讓它們可以完全覆蓋到任何實體。我們已經知道了從實體到類別的映射，所以對于任意給定的類別系統(tǒng)，都可以把每個實體表征為一個大約 100 維的二進制向量，其中的每一維就對應著是否屬于某個類別。
根據每個維基百科的內鏈和上下文文本生成訓練數(shù)據，其中會把單詞和文本內容映射到剛才提到的大約 100 維的二進制向量，然后訓練一個神經網絡預測這種映射。這一步就把前面的幾步聯(lián)系起來了，維基百科的鏈接可以把單詞映射到一個實體，然后從第二步知道每個實體的類別，第三步選出了這個分類系統(tǒng)里面要用的類別。
到了測試的時候，給定一個詞和上下文，這個神經網絡的輸出就可以看作是這個詞屬于每個類別的概率。如果確切知道了類別系統(tǒng)的內容，就可以縮小范圍，確定到某一個實體（假設類別是經過精心選擇好的）。不過也必須經過基于概率的一組 20 個問題組成的判斷過程，通過貝葉斯理論計算出這個詞被分辨為各個可能的類別的概率分別是多少。

一些類別分辨的例子

「藍莓是一種可以食用的水果，又屬杜鵑花科越橘屬植物產出?！?/p>

「我想要MAC」說的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

「在 2013 財年的第二季度，黑莓售出了 680 萬臺手持設備，但同時也首次被競爭對手諾基亞的 Lumia 系列的銷量超越?！?/p>

「我想要MAC」說的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

「在 Python 中可以可以操作 string?！?/p>

「我想要MAC」說的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

「Python 一般是無毒的?！?/p>

「我想要MAC」說的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

數(shù)據清洗

Wikidata 的知識圖經過轉換后可以作為實體到類別映射的細粒度訓練數(shù)據源。OpenAI 的研究人員們遞歸使用其中的「instance of」（是 xxx 的一個實例）關系以確定任意給定的實體都可以屬于哪些類型，比如，每個「人類」下面的有效節(jié)點都屬于「人類」類型。維基百科也可以通過「category link」功能提供實體到類別的映射。

從維基百科的內部鏈接得到的統(tǒng)計結果可以很好地預測特定的詞匯指代某個實體的概率如何。不過數(shù)據里有很多噪聲，因為維基百科經常會鏈接到類型的某個實例而不是這個類型本身，比如會把「國王」鏈接到「英國查爾斯王子一世」（回指），或者鏈接到一個昵稱上去（轉喻）。這就讓有聯(lián)系的實體的數(shù)量大爆炸，也讓鏈接出現(xiàn)的頻率變得混亂（比如「國王」有 974 個相關的實體，「皇后」鏈接到皇后樂隊有 4920 次，鏈接到伊麗莎白二世有 1430 次，而鏈接到君主只有 32 次）。

最簡單的處理方法是對不經常出現(xiàn)的鏈接剪枝，不過這也會帶來丟失信息的問題。所以 OpenAI 的研究人員們轉而使用 Wikidata 的屬性圖，啟發(fā)式地把鏈接轉換為它們的「一般」意思，像下圖這樣。

「我想要MAC」說的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

經過這樣處理之后，「國王」相關的實體就從 974 大幅下降到了 14 個，同時「皇后」到「君主」的鏈接數(shù)目也從 32 個增加到了 3553 個。

學習一個好的類別系統(tǒng)

我們希望學到最好的類別系統(tǒng)和參數(shù)，這樣才能讓分辨單詞的準確率最大化?？赡艿念悇e種類組合有無數(shù)多種，找到一個精確解似乎難以實現(xiàn)。所以 OpenAI 的研究人員們使用了啟發(fā)式搜索或者隨機優(yōu)化（演化算法）的方法選出一個類別系統(tǒng)，然后用梯度下降訓練出一個類別分類器，用來預測類別系統(tǒng)的表現(xiàn)。

在這里，理想的類型系統(tǒng)應當有足夠的區(qū)分度（這樣可以快速減小可能的實體分布），同時還應當易于學習（這樣單詞的上下文可以包含足夠的信息，足以讓神經網絡推測適合什么類型）。OpenAI 的研究人員們用了兩種啟發(fā)式方法進行類別系統(tǒng)的搜索，一種是基于可學習性的（訓練出的分類器預測類別所在的平均 AUC），另一種是先見準確率（如果網絡預測對了所有類型，那么辨別實體的能力如何）。

「我想要MAC」說的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

類型系統(tǒng)的進化

OpenAI 的研究人員們?yōu)閿?shù)據集中最常見的 15 萬個類別分別訓練了二分類分類器，分類器的輸入就是上圖中文本窗口對應的一段。分類器的 AUC 就看作為這個類型的「可學習性」分數(shù)。高 AUC 表示表示很容易從上下文中推測出所屬類型，不好的表現(xiàn)就意味著訓練數(shù)據不夠，又或者設定的文本窗口并沒有起到什么幫助（在 ISBN 之類的非自然類型預測中很容易發(fā)生）。完整的模型需要好幾天才能訓練好，所以他們也同步設計了一個小得多的模型作為「可學習性」分數(shù)的代理模型，只需要 2.5 秒就可以完成訓練。

「可學習性」分數(shù)和計數(shù)統(tǒng)計都可以用來估計把某一組類別作為類別系統(tǒng)之后的模型表現(xiàn)。交叉熵方法的優(yōu)化示意圖如下。

「我想要MAC」說的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

每步優(yōu)化中使用了 100 個樣本。更多的樣本可以讓優(yōu)化結果更準確，但花費的時間也更長、模型大小也更大。圖示的優(yōu)化得到的結果如下圖

「我想要MAC」說的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

整個模型的交叉熵如下

「我想要MAC」說的是口紅還是電腦？OpenAI 的 AI 可能比你男朋友更清楚

神經類型系統(tǒng)

根據類型系統(tǒng)優(yōu)化得到的最好結果，OpenAI 的研究人員們接下來就可以用類型系統(tǒng)生成的標簽給維基百科的數(shù)據做標注。得到了這樣的數(shù)據后（在 OpenAI 的實驗中，他們共用了英語和法語的各 4 億句）就可以訓練雙向 LSTM，獨立地預測每個單詞的所有類型的符合情況。在維基百科的源文本上只有網站內鏈是可以確認使用的，然而這也已經足以訓練出一個類別預測首位預測準確率超過 0.91 的深度神經網絡。

有趣的是，在束搜索得到的某個分類系統(tǒng)中，除了包含了典型的航空、衣著、游戲之類的分類之外，還令人意外地包含了一些非常具體的分類，比如「1754 年在加拿大」，意味著 1754 年在用來訓練網絡的一千多篇維基百科文章中是非常充實有趣的一年。

下一步研究

OpenAI 表示自己的這項研究和以往嘗試解決這個問題的方法有許多的不同，他們也很感興趣分布式表征的端對端學習相比他們開發(fā)的基于類別推理的系統(tǒng)最好能有什么樣的表現(xiàn)。而且論文中的分類系統(tǒng)只是用了維基百科數(shù)據集的很小的一部分創(chuàng)建出的，如果擴展到整個維基百科的規(guī)模，有可能可以建立出有更廣闊應用空間的分類系統(tǒng)。

論文地址：https://arxiv.org/abs/1802.01021

開源地址：https://github.com/openai/deeptype

via OpenAI，雷鋒網 AI 科技評論編譯

邀請函or挑戰(zhàn)書？OpenAI 喊你研究 7 個未解 AI 問題

OpenAI 開源最新工具包，模型增大 10 倍只需額外增加 20% 計算時間

AI能看懂英文，阿里巴巴奪實體發(fā)現(xiàn)測評全球第一

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。