丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
國際 正文
發(fā)私信給AI科技評論
發(fā)送

0

深度解讀谷歌SyntaxNet:全新TensorFlow自然語言處理模型

本文作者: AI科技評論 2016-05-17 18:36
導語:SyntaxNet用來做什么?帶來多大進步?下一步是什么?

今年夏天,雷鋒網(wǎng)將在深圳舉辦一場盛況空前的“全球人工智能與機器人創(chuàng)新大會”(簡稱GAIR)。大會現(xiàn)場,雷鋒網(wǎng)將發(fā)布“人工智能&機器人Top25創(chuàng)新企業(yè)榜”榜單。目前,我們正在四處拜訪人工智能、機器人領域的相關公司,從而篩選最終入選榜單的公司名單。如果你的公司也想加入我們的榜單之中,請聯(lián)系:2020@leiphone.com。

深度解讀谷歌SyntaxNet:全新TensorFlow自然語言處理模型

圖片來源:spaCy

編者注:spaCy是一個免費開源代碼庫,Matthew Honnibal是spaCy公司創(chuàng)始人及CTO。他在本科時學習語言學,從未想到未來自己會成為程序員。Honnibal獲得悉尼大學計算機科學PHD學位并進行研究員工作后,在2014年離開學術界開始編寫spaCy。本文中,Hobbibal深度解讀了谷歌的自然語言處理模型。

上周,谷歌開源了其基于人工智能系統(tǒng)Tensorflow的自然語言解析模型分析庫SyntaxNet。在過去的兩年時間里,谷歌研究人員利用這個分析庫發(fā)布了一系列神經(jīng)網(wǎng)絡分析模型。自從SyntaxNet發(fā)布以來,筆者就一直關注它,當然也一直也期待這個軟件能夠開源。不過,本文嘗試圍繞本次開源的相關背景做一些探討,比如本次開源有什么新料,開源又有何重要意義?
在自然語言文本處理庫中(比如spaCy),SyntaxNet提供了非常重要的模型。如果你把自然語言處理的概念”縮小”一點,就會意識到,這種你正在關注的技術可以拓展計算機的應用范圍。即便是現(xiàn)在,你依然無法編寫軟件去控制一輛汽車,也無法用你的語氣來回復電子郵件,更無法用軟件來分析客戶反饋,或為規(guī)避重大商業(yè)風險去監(jiān)測全球新聞。誠然,自然語言處理無法操控無人駕駛汽車,但等下先,語言是人類最與眾不同的能力,人類已經(jīng)不可避免地掌握了這種技能,但是自然語言處理技術也很優(yōu)秀,我們甚至難以預測它的潛力。谷歌搜索就是一種自然語言處理應用,所以你會發(fā)現(xiàn)這項技術其實已經(jīng)在改變世界。不過,在筆者看來,自然語言處理還有很大發(fā)展空間。

 在更大的價值鏈里,SyntaxNet其實算是一種較低級別的技術,它就像是一個改良的鉆頭,鉆頭本身無法給你石油,石油本身無法給你提供能量和塑料,能量和塑料本身也無法自動形成某種產(chǎn)品。但如果整個價值鏈的瓶頸是石油開采效率,那么大幅提高鉆頭技術(雖然是一種底層技術)也是非常重要的。

 在筆者看來,在自然語言處理中語法解析就是一個瓶頸技術,如果它有四、五年時間做優(yōu)化改進,將會對自然語言處理產(chǎn)生巨大影響。現(xiàn)在你可能會說,我之所以覺得這是個問題,是因為這項技術正從學術研究轉(zhuǎn)變?yōu)樯虡I(yè)化應用。但我所能說的就是,這其實是一種逆轉(zhuǎn)因果關系:正是因為我理解問題的重要性,所以我投入其中,而不是相反。

 好了,我知道即便某個技術遇到瓶頸,但也無法否定其重要性。SyntaxNet如何向前邁一大步呢?如果你已經(jīng)在Stanford CoreNLP中使用了神經(jīng)網(wǎng)絡模型,那么可以肯定的是,你正在使用的其實是一種算法,在設計層面上這種模型和算法其實是完全一致的,但在細節(jié)上卻不一樣。使用spaCy語法解析模型也是如此。從概念上講,SyntaxNet的貢獻可能會讓人覺得沒那么大,畢竟它主要用于試驗,優(yōu)化和改進。然而,如果谷歌不做這項工作,可能就沒有人會去做。可以說,SyntaxNet為神經(jīng)網(wǎng)絡模型打開了一扇窗,人們從中看到了一個充滿各種想法創(chuàng)意的美麗風景,研究人員也正忙于探索這一切。當然啦,行業(yè)內(nèi)也會有一種偏見,認為SyntaxNet會讓研究人員看上去(感覺上)更聰明??赡?,我們最終會有一個非常準確的語法分析模型,但是這個模型無法實現(xiàn)正確的假設(當然在系統(tǒng)設計的角度準確性是十分重要的),繼而導致未來神經(jīng)網(wǎng)絡模型的發(fā)展越來越慢。在CoreNLP模型說明推出后的六個月,首個SyntaxNet論文才發(fā)布出來,他們使用了更大的網(wǎng)絡,更好的激活函數(shù),以及不同的優(yōu)化方法,不僅如此,SyntaxNet還應用了更具原則性的定向搜索方法,進而取代了目前更多工作。使用 LSTM模型可以實現(xiàn)同樣準確的并行工作,而不是按照SyntaxNet論文里描述的那樣,同時發(fā)布前饋網(wǎng)絡。

 SyntaxNet用來做什么?

 SyntaxNet語法解析器可以描述一個句子的語法結(jié)構(gòu),幫助其他應用程序理解這個句子。自然語言會產(chǎn)生很多意想不到的歧義,人們通常可以利用自己的知識過濾掉那些產(chǎn)生歧義的。舉個大家比較喜歡的例子:

 他們吃了加鳳尾魚的披薩(They ate the pizza with anchovies)

                                             深度解讀谷歌SyntaxNet:全新TensorFlow自然語言處理模型

圖片來源:spaCy

正確的語法分析是將“with”和“pizza”聯(lián)系在一起,也就是他們吃了加鳳尾魚的披薩;

深度解讀谷歌SyntaxNet:全新TensorFlow自然語言處理模型

圖片來源:spaCy

而不正確的語法分析是將“with”和“eat”聯(lián)系在一起,他們和鳳尾魚一起吃了披薩。


深度解讀谷歌SyntaxNet:全新TensorFlow自然語言處理模型

圖片來源:spaCy

如果你想要更形象地感受這個技術,不妨可以看下我們的displaCy demo,或是看一個簡明的,基于規(guī)則方法的例子,去了解語法樹是如何計算出來的?!皢卧~與單詞”關系熟也可以用來識別一些簡單的語法語義,這樣可以便于擴展形成“單詞包”技術(比如word2vec,它是一個將單詞轉(zhuǎn)換成向量形式的工具??梢园褜ξ谋緝?nèi)容的處理簡化為向量空間中的向量運算,計算出向量空間上的相似度,來表示文本語義上的相似度。)舉個例子,我們解析去年Reddit論壇上的每一個評論,相比于嚴格限制空格分割單詞的方法,使用word2vec顯然更有幫助,因為后者可以分析短語,實體和單詞生成一個很不錯的概念圖。

 SyntaxNet是一個訓練和運行句法依賴解析的模型庫。這個模型可以較好地權衡語義分析速度和準確度??赡苁菫榱孙@得更時髦些,谷歌給這個模型起了個很酷的名字——Parsey McParseface。希望他們能夠繼續(xù)延續(xù)這種時髦的命名方式,我覺得未來應該有個更好的方式,讓模型發(fā)展時間軸顯得更清楚一些,自然語言處理技術也應如此。

 SyntaxNet帶來多大進步?

 雖然打上了“當今世界上最準確的語義分析”標簽,但Parsey McParseface其實只比最近的相關語義分析研究領先了一點點而已,如今的語義分析模型使用了更加復雜的神經(jīng)網(wǎng)絡架構(gòu),但有更多限制性的參數(shù)調(diào)整。因此,很多相似的技術也將不再會局限在學術圈。另一方面,如果你關心這種模型是否能夠?qū)崒嵲谠谧鲆恍┦虑?,那么現(xiàn)實可能會讓你有些失望了,目前這些技術還無法真正去“做事”。自從去年SyntaxNet論文發(fā)布之后,筆者本人一直在斷斷續(xù)續(xù)的研究神經(jīng)網(wǎng)絡模型spaCy,但是效果并不太好,我們想要讓spaCy便于安裝,我們想要它在單CPU上快速運行,我們還想要它保持多線程,不過所有這些要求目前都很難實現(xiàn)。

 對于語義分析基準,Parsey McParseface在每秒600個單詞的速度下,準確度可以超過94%。同樣地,spaCy每秒識別1.5萬字的精準度為92.4%。這個準確度可能聽上去不是很高,但對于應用程序來說,其實已經(jīng)算非常好的了。

 任何預測系統(tǒng),通常最重要的考慮因素就是基準預測的差異,而不是絕對進度。一個預測天氣的模型,今天和昨天的準確度可能是一樣的,但是它不會增加任何價值。關于依存關系語法分析,大約80%的依賴關系都很簡單明確,這意味著,一個只正確預測那種依附關系的系統(tǒng)正在注入少量額外信息,這種能力不是只查看每個單詞就能做到的,而是要考慮詞和詞之間的關系。

 總而言之,我認為在目前人工智能的大趨勢下,Parsey McParseface是一個非常好的里程碑。重要的是,它可以實現(xiàn)多快的速度,以及能實現(xiàn)多么先進的自然語言處理技術。我覺得以前有很多想法不能實現(xiàn),但是肯定會有那一刻的到來,一瞬間所有都變得可行了。

 下一步是什么?

 最讓我興奮的是,通過Parsey McParseface模型設計,自然語言處理技術有了一個非常清晰的方向,這時你可能會說:“好的,如果它有作用就太好了?!?004年,語義分析領域的領軍人物之一 Joakim Nivre表示,這種類型的語法解析器可以一次性讀句子,繼而減少錯誤理解。它適用于任何狀態(tài)表達,任何行為集合,任何概率模型架構(gòu)。舉個例子,如果你解析一個語音識別系統(tǒng)的輸入,你可以讓語法解析器優(yōu)化語音識別器,在基于句法環(huán)境下猜測對方要說的話。如果你使用知識庫,那么可以擴展狀態(tài)表達,使其中包含你的目標語義,讓它學習語法。

 聯(lián)合模型和半監(jiān)督學習一直是自然語言理解研究最完美的體現(xiàn)。從來沒有人懷疑它們的優(yōu)點——但是如果沒有一個具體的方法,這些技術也只是陳詞濫調(diào)罷了。很明顯,理解一個句子需要正確地拆分單詞,但這樣做會帶來很多問題,更難以找到一個滿意的解決方案。此外,一個自然語言理解系統(tǒng)應該可以利用現(xiàn)有的大量未標注文本,這同樣需要不同類型的模型支持。我認為,針對上述兩個問題,一個過渡的神經(jīng)網(wǎng)絡模型能夠給出答案。你可以學習任何架構(gòu),你看到的文本越多,你學習的就越多,而且神經(jīng)網(wǎng)絡模型也不需要添加任何新參數(shù)。

 顯然,我們想要在Parsey McParseface和spaCy模型之間構(gòu)建一座橋梁,這樣在spaCy應用程序接口的支持下,你才能使用更加準確的模型。不過,對于任何單獨用例,讓這種技術真正發(fā)揮作用總是會出現(xiàn)一些變數(shù)。特別是每一個應用程序中總會存在不同類型的文本,如果數(shù)據(jù)模型能調(diào)整到域,準確度才能夠有實質(zhì)提升,比如一些完整編輯的文本,像財務報告,你必須要讓語義分析模型把“市值”這個詞考慮成決定性指標,才能更好地理解全文;但是如果在理解Twitter上的推文時,你讓語義分析模型將“市值”理解成決定性指標,通常是沒有什么意義的。

 我們的目標就是要提供一系列預先訓練模式,去解決這一問題,讓語義分析模型適應不同的語言和風格。我們也有一些令人非常興奮的想法,盡可能輕松地幫助每個用戶訓練屬于自己的自定義模型。我們認為,在自然語言處理中,算法總是沖在最前面,而數(shù)據(jù)往往滯后。我們希望解決這個問題。

 

via spaCy

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說