0
本文作者: 木子 | 2018-10-25 16:27 | 專題:語言智能的技術(shù)與商業(yè)前沿 | 走進深度好奇 |
雷鋒網(wǎng)按:本文原作者為深度好奇研究組,原發(fā)表于公眾號“深度好奇AI”(deeplycurious)。雷鋒網(wǎng)已獲授權(quán)轉(zhuǎn)載。
論文題目:Zooming Network
論文地址:(請戳此處)
神經(jīng)網(wǎng)絡模型之所以能夠在人工智能的各個領(lǐng)域大放異彩,除了憑借強大的擬合能力和各類梯度下降方法之外,還要依靠網(wǎng)絡結(jié)構(gòu)基于數(shù)據(jù)信息分布特征的針對性設計。比如,多層全連接網(wǎng)絡雖然在理論上可以擬合任何函數(shù),實際應用中的效果卻往往差強人意;而另一方面,多層卷積神經(jīng)網(wǎng)絡由于采用了類似大腦初級視覺皮層信息處理方法的卷積操作與參數(shù)共享方法,對圖像信息進行高效的特征提?。ǔ浞掷昧藞D像中的平移不變性、局部信息連續(xù)性),可以使用少得多的參數(shù)在圖像處理任務上取得非常好的效果。
我們認為自然語言處理領(lǐng)域尚無一種類似卷積網(wǎng)絡的在圖像處理領(lǐng)域具有奠基作用的模型。究其原因,是我們尚未充分利用自然語言數(shù)據(jù)和任務天然具有的特征進行模型結(jié)構(gòu)的改進。自然語言天然地具有如下特征:1)自然語言(文本)是由一些基本語言單元(如單詞、字、詞)構(gòu)成的序列;2)語言單元具有層級特征,低級語言單元可以構(gòu)成高級語言單元(如多個字可以組成一句或一段文本);3)語言單元的劃分不是隨機的,而是包含著語者或作者的信息表達策略;4)不同于圖像數(shù)據(jù),基本語言單元不具有像素一樣的局部連續(xù)性,而是高度信息符號化的。
為了更好地利用上述文本特征,我們提出了變焦網(wǎng)絡(Zooming Network)的概念。整體上看,變焦網(wǎng)絡由三個主要部分組成:層次化編碼模塊、變焦控制器模塊、符號推理模塊,分別完成針對語言單元特點的編碼過程、解碼過程,以及針對自然語言符號化的推理輔助解碼。我們將該網(wǎng)絡設計應用到長文本序列標注任務上,取得了非常好的效果(f1 score超過bi-LSTM-crf模型10%以上)。
人在閱讀文本時既按照時間順序累積信息,又伴隨著不同級別的信息抽象。這對應著人類語言文字共有的兩個重要特征:時序化和分級化。我們對與編碼模塊的設計就是利用了這兩個特征:使用雙向長短時記憶層(bi-LSTM)對單一語言單元層級進行順序地讀取、編碼;使用最大池化操作(max-pooling)模仿人腦由低級語言單元抽象高級語言單元信息的過程。通過層次化編碼,我們賦予每一級每一個語言單元一個向量表示(hierarchical distributed memory),并保留其句段劃分的分界信息。
變焦控制器本質(zhì)上是一個序列決策模型。不同于經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(RNN)模型:1)變焦控制器每次不是接收單個基本語言單元的信息,而是接收當前位置上的字、句、段三級信息,這樣可以使模型同時掌握細節(jié)特征(detailed local feature)和整體特征(global feature),以更好地進行狀態(tài)更新。2)在每個解碼標簽序列的時刻,變焦控制器可以選擇當前解碼長度,可以選擇輸出任意層級語言單元對應的標簽,而不僅限于基本語言單元(字/字符)。3)在預測標簽之后,讀取位置會自動跳轉(zhuǎn)到與解碼層級一致的下一語言單元的開頭,而不是直接跳轉(zhuǎn)到下一個基本語言單元。這種解碼過程使得變焦控制器對文本表征的閱讀方式更加靈活,在信息分布稀疏的部分可以快速略讀(Zoom out),在信息分布集中的部分可以逐字精讀(Zoom in)。
在解碼過程中,我們可以通過自然語言文本的一些“寫作習慣”特征和已經(jīng)預測出的標簽序列,對下文標簽規(guī)則推理出一些建議標簽。例如,在大量的垂直領(lǐng)域文本中,常常出現(xiàn)一些有序列舉過程:“1. …… 2. …… 3. ……”。這些有序符號往往成組出現(xiàn),而且對應內(nèi)容是等位并列關(guān)系,一般具有相同標簽(或者相同結(jié)構(gòu)標簽)。在實際使用過程中,我們會綜合上個序號內(nèi)容的處理方式,給出下個序號內(nèi)容處理的最佳路徑并以稀疏向量的形式輸入到變焦控制器內(nèi),使其可以更加高效地處理數(shù)據(jù)。
我們將該模型應用到兩組數(shù)據(jù)的序列標注上:
1)集中式的重點信息抽?。涸谛淌掳讣牟门形臅?,對犯罪事件的具體描述提供了整個案件的判決依據(jù),有很重要的分析價值。這些描述往往集中出現(xiàn),但是由于整個裁判文書的長度多變,案件復雜程度不一,對這些描述的高效抽取既需要快速地略過無關(guān)信息,又需要在信息出現(xiàn)的段落進行精細的分析。下圖示例中紅色及藍色的文字表示被Zooming Network抽取出來的部分,不同的顏色則代表不同的犯罪事件標簽。
被告人張三,男,1978年3月17日出生,現(xiàn)因涉嫌犯盜竊罪,于2005年9月21日被羈押,同年10月28日被逮捕,現(xiàn)羈押在北京市海淀區(qū)看守所。
北京市海淀區(qū)人民檢察院指控被告人張三犯盜竊罪,于2006年6月9日向本院提起公訴。本院依法組成合議庭,公開開庭審理了本案。北京市海淀區(qū)人民檢察院指派檢察員武軍出庭支持公訴,被告人李忠士到庭參加訴訟。現(xiàn)已審理終結(jié)。
經(jīng)審理查明:
被告人張三于2001年4月1日,在本市海淀區(qū)車道溝10號院東99丙號樓3單元地下室,撬門入室竊取被害人A的現(xiàn)金人民幣1 700元,竊取被害人B的諾基亞5110型手機1部、愛立信398型手機1部,共計折合人民幣2 667元。贓款、贓物均未起獲。
被告人張三于2001年8月13日,在本市海淀區(qū)萬壽路甄家墳集體宿舍,翻窗入室竊取被害人C的現(xiàn)金人民幣7 300元、純金戒指1枚,共計折合人民幣8 400元?,F(xiàn)贓款、贓物均未起獲。
綜上,被告人張三共盜竊作案2次。
——————————————————————————————————————————
The defendant Zhang San, male, born on March 17, 1978, was detained on September 21, 2005 for suspicion of theft and was arrested on October 28 of the same year. He is now detained at the Haidian District Detention Center in Beijing.
Haidian District People's Procuratorate accused the defendant Zhang San guilty of theft, on June 9, 2006 prosecution to this court. Our court formed a collegiate bench and heard the case openly. Beijing Haidian District People's Procuratorate appointed inspector Wu to appear in court to support the prosecution, the defendant Li Zhongshi to attend the proceedings. Now trial ended.
After trial found:
On April 1, 2001, defendant Zhang San stole the victim's cash of RMB 1,700 in the basement of Unit 3, Building 99, Lane 10, Lane 10, Lane, Haidian, Haidian, to steal the victim's Nokia 5110 A mobile phone, Ericsson 398 mobile phone 1, a total of 2 667 yuan equivalent. Stolen money, stolen goods have not played.
On August 13, 2001, the defendant, Zhang San, stole the victim's C for 7,300 yuan in cash and 1 piece for the pure gold ring in a rented apartment in Zhenjiafen, Wanshou Road, Haidian District, on August 13, 2001. The total amount was equivalent to 8,400 yuan . Now stolen money, have not been stolen goods.
To sum up, the defendant Zhang three commoner theft 2 times.
2)分散式的重點信息抽?。涸谥R產(chǎn)權(quán)糾紛案件的裁判文書中,案件的核心是原被告雙方爭議的焦點。這些信息隨著對糾紛的描述不定位置地出現(xiàn),出現(xiàn)形式也復雜多變,進一步要求模型對處理路徑的靈活選擇。下圖示例中紅色及藍色的文字表示被Zooming Network抽取出來的部分,不同的顏色則代表不同的爭議焦點標簽。
本院認為,原告張三是涉案發(fā)明專利的專利權(quán)人,該專利至今在有效期限內(nèi),法律狀態(tài)穩(wěn)定,應受法律保護。任何單位或者個人未經(jīng)專利權(quán)人許可不得實施該專利,否則應承擔相應法律責任。
綜合本案當事人的訴辯意見,本案爭議焦點主要在于以下兩個方面:1.被控侵權(quán)產(chǎn)品是否落入涉案專利權(quán)利要求1的保護范圍;2.被告的侵權(quán)責任應如何承擔。
—————————————————————————————————————————————————————————————————
The court held that the plaintiff Zhang San was the patentee of the invention patent involved in the patent so far, and the patent so far has a stable legal status and should be protected by law. Any unit or individual may not implement the patent without the permission of the patentee, or shall bear the corresponding legal responsibility.
Based on the opinions of the parties involved in this case, the focus of the dispute in this case lies mainly in the following two aspects: 1. Whether the accused infringing product falls into the protection scope of Claim 1 of the patent involved; 2. How the defendant's tort liability should be borne.
我們使用序列標注經(jīng)典最優(yōu)模型bi-LSTM-crf作為baseline model來比較模型的處理性能,實驗結(jié)果如下(模型參數(shù)數(shù)量為同一量級):
其中,WA指word-level的整體準確率,wlar指模型使用的逐字讀取行為占全部處理行為的數(shù)量比例??梢钥闯觯兘咕W(wǎng)絡的性能遠超基線模型,而且具有很高的處理效率(大量地使用句、段級別的標簽預測行為)。這個過程的具體示例如下:
被告人張三,男,1978年3月17日出生,現(xiàn)因涉嫌犯盜竊罪,于2005年9月21日被羈押,同年10月28日被逮捕,現(xiàn)羈押在北京市海淀區(qū)看守所。
北京市海淀區(qū)人民檢察院指控被告人張三犯盜竊罪,于2006年6月9日向本院提起公訴。本院依法組成合議庭,公開開庭審理了本案。北京市海淀區(qū)人民檢察院指派檢察員武軍出庭支持公訴,被告人李忠士到庭參加訴訟?,F(xiàn)已審理終結(jié)。
經(jīng)審理查明:
被告人張三于2001年4月1日,在本市海淀區(qū)車道溝10號院東99丙號樓3單元地下室,撬門入室竊取被害人A的現(xiàn)金人民幣1700元,竊取被害人B的諾基亞5110型手機1部、愛立信398型手機1部,共計折合人民幣2667元。贓款、贓物均未起獲。
被告人張三于2001年8月13日,在本市海淀區(qū)萬壽路甄家墳集體宿舍,翻窗入室竊取被害人C的現(xiàn)金人民幣7 300元、純金戒指1枚,共計折合人民幣8400元。現(xiàn)贓款、贓物均未起獲。
綜上,被告人張三共盜竊作案2次。
上述事實,被告人張三在開庭審理過程中亦無異議,且有物證涉案物品價格鑒定(認證)結(jié)論書,被告人的供述等證據(jù)證實,足以認定。
本院認為,被告人張三以非法占有為目的,多次秘密竊取他人財物,數(shù)額較大,其行為已構(gòu)成盜竊罪。公訴機關(guān)指控的事實、罪名成立,本院予以確認。據(jù)此,為保護公私財產(chǎn)權(quán)利不受侵犯,懲罰犯罪,依照《中華人民共和國刑法》,判決如下:
被告人張三犯盜竊罪,判處有期徒刑一年。
審 判 長 張某某
人民陪審員 曲某某
人民陪審員 楊某某
其中,藍色部分表示模型使用了句級、段級的預測,紅色部分表示模型使用了字級的預測??梢钥闯?,在信息意義不大的部分,模型選擇了略讀,而在關(guān)鍵信息出現(xiàn)的地方,模型采用了精讀的方式處理。另外一個有意思的現(xiàn)象是,模型對于“經(jīng)審理查明”等帶有指示功能的語句一樣采用了精讀方式處理。
借助句段結(jié)構(gòu)信息,變焦神經(jīng)網(wǎng)絡很好地結(jié)合了泛讀與精讀過程,可以更好地對長時依賴特征進行建模,引入大跨度動作提高效率,尤其在篇幅很長的文本處理中表現(xiàn)得更為明顯,在關(guān)鍵信息的抽取任務上,f1值較經(jīng)典序列標注模型(biLSTM+CRF)有10%以上的提升。在此基礎(chǔ)上引入神經(jīng)符號化推理模塊后,其處理效率又有了一個顯著提升。變焦神經(jīng)網(wǎng)絡非常適合應用于各類長文本處理任務當中,其使用的編解碼方式也可結(jié)合其他技術(shù)推廣到各類自然語言處理任務中,產(chǎn)生新的火花。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。