0
本文作者: 楊曉凡 | 2017-08-20 09:09 | 專題:EMNLP 2017 |
雷鋒網(wǎng) AI 科技評論按:2017年 EMNLP 自然語言處理實證方法會議(Conference on Empirical Methods in Natural Language Processing)將于2017年9月7-11日在丹麥哥本哈根市召開。EMNLP是自然語言處理領(lǐng)域的頂級會議,由ACL學(xué)會下屬特殊興趣小組 SIGDAT(ACL Special Interest Group on Linguistic data and Corpus-based Approachesto NLP)組織,每年召開一次。近幾年的 EMNLP 會議都吸引了來自學(xué)術(shù)界和企業(yè)界的近千人參加,論文投稿數(shù)目也有上千篇。
今年 EMNLP 共接受論文323篇,其中216篇為長論文,107篇為短論文。EMNLP 2017 也于昨日公布了最佳論文獲獎?wù)撐拿麊?,四篇論文分獲兩個最佳長論文獎、一個最佳短論文獎和一個最佳資源論文獎。
「Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints」
“用語料庫級別的限制減少性別偏見的放大程度,其實男人也喜歡購物”
論文作者:Jieyu Zhao, Tianlu Wang, Mark Yatskar, Vicente Ordonez and Kai-Wei Chang
論文簡介:在具有網(wǎng)絡(luò)圖像支持的富視覺識別問題定義上,語言的使用越來越多。結(jié)構(gòu)化的預(yù)測模型也在這樣的任務(wù)中得到使用,它們的好處是能夠利用聯(lián)合出現(xiàn)的標(biāo)簽和視覺輸入之間的聯(lián)系,隨之而來的風(fēng)險是把網(wǎng)絡(luò)內(nèi)容中的社會偏見也編碼到了里面。在這篇論文中,作者們研究了與多標(biāo)簽物體識別和視覺語義角色標(biāo)注相關(guān)的數(shù)據(jù)和模型,然后發(fā)現(xiàn)用于支持這些任務(wù)的數(shù)據(jù)集含有顯著的性別偏見,用這樣的數(shù)據(jù)集訓(xùn)練出的模型會進(jìn)一步擴(kuò)大已有的偏見。比如,在數(shù)據(jù)集中“做飯”這項活動有女性參加的比例比有男性參加的比例至少大33%,用這個數(shù)據(jù)集訓(xùn)練出的模型在測試中會把這種區(qū)別進(jìn)一步擴(kuò)大到68%,作者們提出了這樣的方法:在模型中增加語料庫級別的限制,以矯正現(xiàn)有的結(jié)構(gòu)化預(yù)測模型的表現(xiàn),并且設(shè)計了一個基于拉格朗日松弛法的算法用于各項推理。修改后的模型在文中的識別任務(wù)中幾乎沒有任何表現(xiàn)下降,但是在多標(biāo)簽分類和視覺語義角色標(biāo)注任務(wù)中,把偏見的擴(kuò)大程度相對減少了47.5%和40.5%。
「Depression and Self-Harm Risk Assessment in Online Forums」
“在線論壇中的抑郁和自殘風(fēng)險評估”
論文作者:Andrew Yates, Arman Cohan and Nazli Goharian
EMNLP暫時未公布這篇論文的更多細(xì)節(jié)
「Natural Language Does Not Emerge 'Naturally' in Multi-Agent Dialog」
“多智能體對話中的自然語言不是真的‘自然地’產(chǎn)生的”
論文簡介:近期已經(jīng)有一系列研究提出了在協(xié)作多智能體群體中做溝通協(xié)議學(xué)習(xí)的端到端方法,而且同時發(fā)現(xiàn)了這些智能體產(chǎn)生的溝通協(xié)議中出現(xiàn)了人類可以解釋的實證語言,這些都是在無需人類監(jiān)督的狀況下學(xué)習(xí)到的。在這篇論文中,作者們以一項兩個智能體間的任務(wù)描述推理游戲為測試環(huán)境,展示了從“負(fù)面”到“正面”的一系列結(jié)果,表明了雖然多數(shù)有智能體參與的語言是有效的(表現(xiàn)為取得了接近完美的任務(wù)回報),但是它們都自主選擇成為了既不可解釋、又不具有組合性的語言。究其根本,作者們發(fā)現(xiàn)自然語言并不是真的“自然地”產(chǎn)生的,盡管近期的文獻(xiàn)中可以看到自然語言的產(chǎn)生很簡單的表象。作者們探討了如何如何引導(dǎo)這些新創(chuàng)作的語言,來讓它們越來越像人類的語言、越來越具有組合性,方法就是對兩個智能體可能的溝通方式中加入更多的限制。
論文作者:Satwik Kottur, José Moura, Stefan Lee and Dhruv Batra.
「Bringing Structure into Summaries: Crowdsourcing a Benchmark Corpus of Concept Maps」
“給文檔總結(jié)加上結(jié)構(gòu):眾包得到的概念圖語料庫 benchmark”
論文簡介:概念圖可以用來簡明地表達(dá)重要信息以及給大型文檔集合建立結(jié)構(gòu)。所以,作者們研究了一系列概念圖形式的多文檔總結(jié)方式。然而,目前沒有合適的數(shù)據(jù)集可以用在這項任務(wù)中。為了補(bǔ)上這個缺口,作者們介紹了一組新創(chuàng)造的概念圖語料庫,它對關(guān)于教育話題的各種各樣的網(wǎng)絡(luò)文檔做了總結(jié)。在它的創(chuàng)立過程中使用了一種新的眾包方法,讓作者們能夠高效地判定大規(guī)模文檔集合中的重要元素。與這個語料庫同時發(fā)布的還有一個基準(zhǔn)系統(tǒng)和作者們提出的評估流程,以便未來的研究者更好地進(jìn)行這一系列總結(jié)方式的研究。
論文作者:Tobias Falke and Iryna Gurevych.
EMNLP 2017會議期間,雷鋒網(wǎng) AI 科技評論也會派出記者帶來全方位報道,敬請期待。同時歡迎閱讀近期的更多學(xué)術(shù)會議報道。
雷鋒網(wǎng) AI 科技評論編譯。
相關(guān)文章:
首發(fā)!三角獸被 EMNLP 錄取論文精華導(dǎo)讀:基于對抗學(xué)習(xí)的生成式對話模型淺說
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。