0
在 AI 語義理解領(lǐng)域,谷歌一直不遺余力地進行研發(fā)投入。
對于普通用戶而言,2015 年發(fā)布的基于深度神經(jīng)網(wǎng)絡(luò)的谷歌智能郵件回復(fù),2016 年上線的神經(jīng)機器翻譯系統(tǒng)(GNMT),便源自于谷歌在該領(lǐng)域的研究成果。在消費級產(chǎn)品之外,谷歌還持續(xù)為 AI 開發(fā)者提供技術(shù)支持,不斷推出新的開源工具。
去年夏天,針對語句的語法結(jié)構(gòu)分析,谷歌開源了 SyntaxNet 神經(jīng)網(wǎng)絡(luò)框架,以及與之搭配英語分析預(yù)訓(xùn)練模型 Parsey McParseface。緊隨其后,谷歌發(fā)布了針對其他 40 門語言的語法分析模型。并將它們命名為 Parsey's Cousins(即 “Parsey 的表兄妹們”)。對英語國家開發(fā)者而言,為英語之外的語言開發(fā)機器學(xué)習(xí)系統(tǒng)是一件相當(dāng)不容易的事。現(xiàn)在,經(jīng)過將近一年的努力,谷歌推出了 SyntaxNet 框架以及 Parsey 相關(guān)模型的升級版。
就雷鋒網(wǎng)所知,這是 SyntaxNet 自誕生以來的最重大升級。這建立在谷歌對各語言的語義理解研究基礎(chǔ)之上。此次升級的核心是一項新技術(shù):能對輸入語句的多層表示進行很好的學(xué)習(xí)。具體來講,它延伸了 TensorFlow,能對多層語言結(jié)構(gòu)進行合成建模,還能夠在語句或文件處理過程中,動態(tài)地生成神經(jīng)網(wǎng)絡(luò)架構(gòu)。
舉個例子,該升級使創(chuàng)建基于字母的模型(能學(xué)習(xí)把單獨字母組合成詞語),變得更加簡單。該模型還能夠?qū)W習(xí)到,不同詞語在共同組成部分(共享的字母)方面存在聯(lián)系。在另一方面,Parsey 和 Parsey’s Cousins 通過詞語排序而運行。因此它們必須要對訓(xùn)練中的詞語進行記憶,并依賴語境來決定“生詞”(此前未記憶過的詞語)的語法函數(shù)。
為了展示新版本 SyntaxNet 的強大之處,谷歌同時發(fā)布了新的預(yù)訓(xùn)練過的模型 ParseySaurus。ParseySaurus 模型,使用了上文提到的基于字母的輸入表示。因此,它極大提升了預(yù)測新詞語含義的能力。這是基于兩個方面來實現(xiàn):詞匯的拼寫和在語境中的使用方式。雷鋒網(wǎng)了解到,ParseySaurus 的準(zhǔn)確率遠(yuǎn)遠(yuǎn)超出 Parsey’s Cousins,錯誤率降低了 25%。由于語言的形態(tài)特性和其他屬性,新模型在俄語、土耳其語、匈牙利語上的效果尤其好——這些語言中,同一個詞匯有多種不同形態(tài),其中許多形態(tài)從未在訓(xùn)練階段出現(xiàn)過(即便是大型語料庫)。
你或許會對“基于字母的模型是不是語義識別的最佳選擇”感到好奇?;蛘?,是否有其他更好的技術(shù)。谷歌表示,新版本的谷歌 SyntaxNet 提供了許多全新可能性,比如 beam search 和不同的訓(xùn)練目標(biāo);但新 SyntaxNet 的能力不止于此。雷鋒網(wǎng)消息,谷歌與布拉格大學(xué)(Charles University)合作,將在今年的 CoNLL 大會上舉辦多語言分解競賽(multilingual parsing competition)。競賽目標(biāo)是為 45 種語言,開發(fā)出在現(xiàn)實環(huán)境下有良好表現(xiàn)的語義分解系統(tǒng)。
via google
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。