0
雷鋒網(wǎng) AI 科技評論按:文本生成是自然語言處理NLP領(lǐng)域的重要問題,許多知名學者都提出了自己的方法,改善現(xiàn)階段文本生成中豐富性不足、句法語意不自然、長句生成困難等問題,比如不久之前我們做過報道的上海交通大學俞勇、張偉楠聯(lián)合UCL汪軍發(fā)表的“LeakGAN”、Percy Liang的ICML2017最佳論文「Understanding Black-box Predictions via Influence Functions」。
Percy Liang是NLP領(lǐng)域的著名研究者,師從Michael I. Jordan,現(xiàn)為斯坦福大學教授;除了論文得到廣泛認可之外,Percy Liang還拿下了 IJCAI 2016 計算機和思想獎(Computers and Thought Award)。
近期,Percy Liang團隊的一篇新論文提出了一種新的文本生成新方法,「Generating Sentences by Editing Prototypes」(用修改草稿的方式生成句子),這個方法不僅符合直覺,生成的效果也非常好,引起了很多研究者的注意和贊譽。以下雷鋒網(wǎng) AI 科技評論對這篇論文做簡單介紹。
這篇論文中提出了一種新的句子生成模型。它首先從樣本語料庫中隨機采樣一個句子作為“草稿”(論文中prototype),然后再把這個草稿編輯為一個新的句子(如下圖)
此前表現(xiàn)較好的系統(tǒng)大多數(shù)都是基于循環(huán)神經(jīng)語言模型(NLM)的,它們“從零開始”生成句子,順序往往從左到右。這類模型中很容易觀察到生成通用化應答的問題,比如“我不知道”這樣。為了提高生成文本的豐富性,目前采用的比較直白的策略都會導致語法準確性的降低,表明目前的NLM模型可能并不具備對復雜應答的各種可能性做完全表征的能力。
論文作者們由此想到了人類寫作時常常有先打草稿、再逐漸把它修改為一篇精美文章的做法,由此提出了文中的模型。模型首先會從訓練語料庫中隨機采樣一個草稿句子,然后激活一個神經(jīng)網(wǎng)絡編輯器;這個編輯器會生成隨機的“編輯向量”,然后根據(jù)編輯向量對草稿句子做條件編輯,從而生成新的句子。
這個思路的出發(fā)點在于,語料庫中的句子提供了一個高質(zhì)量的起點:它們語法正確,天然地具有復雜性,而且不會對長短和模糊性有任何偏好。編輯器中的注意力機制就會從草稿中提取出豐富的文本信息,然后把它泛化為新的句子。
模型的訓練方式是最大化估計生成模型的對數(shù)最大似然。這個目標函數(shù)是訓練集中具有相似詞法的句子對的和,從而可以用局部敏感哈希(Locality Sensitive Hashing)做量化估計。論文中同時用實證方法表明,多數(shù)詞法相同的句子同時在語義上也是相似的,這樣給神經(jīng)編輯器的語義結(jié)構(gòu)方面帶來了額外的益處。比如,作者們可以讓一個神經(jīng)編輯器從一個種子句子出發(fā),探索很大一片語義空間。
作者們從兩個方面對比了這個“先打草稿再優(yōu)化”的模型和以往從零生成的模型:語言生成質(zhì)量以及語義屬性。對于語言生成質(zhì)量,人類評價者給論文中的模型打了更好的分數(shù),在Yelp語料庫上把復雜度(perplexity)提升了13分,在One Billion Word Benchmark中提升了7分。對于語義屬性,論文中表明隱編輯向量在語義相似性、局部控制文本生成和句子模擬任務中優(yōu)于標準的句子可變編碼器。
下圖是一組草稿句子和修改后句子的對比,有顯著的不同,并且保持了高質(zhì)量
論文公布并經(jīng)過轉(zhuǎn)推擴散開來后,許多研究者都在推特上表示了對這篇論文的認可
(Percy Liang實驗室?guī)淼穆斆鞯木渥由煞椒ǎ簭恼Z料庫中的例子開始,學習加上有模有樣的變化)
(下面網(wǎng)友說:“這看起來很像我學英語的方法”)
更多論文細節(jié)請閱讀原文 https://arxiv.org/abs/1709.08878
雷鋒網(wǎng) AI 科技評論編譯
相關(guān)文章:
如何讓對抗網(wǎng)絡GAN生成更高質(zhì)量的文本?LeakGAN現(xiàn)身說法:“對抗中,你可能需要一個間諜!”
強化學習在生成對抗網(wǎng)絡文本生成中扮演的角色(Role of RL in Text Generation by GAN)(下)
強化學習在生成對抗網(wǎng)絡文本生成中扮演的角色(Role of RL in Text Generation by GAN)(上)
《安娜卡列尼娜》文本生成——利用 TensorFlow 構(gòu)建 LSTM 模型
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。