0
本文作者: 楊曉凡 | 2017-08-20 09:09 | 專題:EMNLP 2017 |
雷鋒網 AI 科技評論按:2017年 EMNLP 自然語言處理實證方法會議(Conference on Empirical Methods in Natural Language Processing)將于2017年9月7-11日在丹麥哥本哈根市召開。EMNLP是自然語言處理領域的頂級會議,由ACL學會下屬特殊興趣小組 SIGDAT(ACL Special Interest Group on Linguistic data and Corpus-based Approachesto NLP)組織,每年召開一次。近幾年的 EMNLP 會議都吸引了來自學術界和企業(yè)界的近千人參加,論文投稿數目也有上千篇。
今年 EMNLP 共接受論文323篇,其中216篇為長論文,107篇為短論文。EMNLP 2017 也于昨日公布了最佳論文獲獎論文名單,四篇論文分獲兩個最佳長論文獎、一個最佳短論文獎和一個最佳資源論文獎。
「Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints」
“用語料庫級別的限制減少性別偏見的放大程度,其實男人也喜歡購物”
論文作者:Jieyu Zhao, Tianlu Wang, Mark Yatskar, Vicente Ordonez and Kai-Wei Chang
論文簡介:在具有網絡圖像支持的富視覺識別問題定義上,語言的使用越來越多。結構化的預測模型也在這樣的任務中得到使用,它們的好處是能夠利用聯合出現的標簽和視覺輸入之間的聯系,隨之而來的風險是把網絡內容中的社會偏見也編碼到了里面。在這篇論文中,作者們研究了與多標簽物體識別和視覺語義角色標注相關的數據和模型,然后發(fā)現用于支持這些任務的數據集含有顯著的性別偏見,用這樣的數據集訓練出的模型會進一步擴大已有的偏見。比如,在數據集中“做飯”這項活動有女性參加的比例比有男性參加的比例至少大33%,用這個數據集訓練出的模型在測試中會把這種區(qū)別進一步擴大到68%,作者們提出了這樣的方法:在模型中增加語料庫級別的限制,以矯正現有的結構化預測模型的表現,并且設計了一個基于拉格朗日松弛法的算法用于各項推理。修改后的模型在文中的識別任務中幾乎沒有任何表現下降,但是在多標簽分類和視覺語義角色標注任務中,把偏見的擴大程度相對減少了47.5%和40.5%。
「Depression and Self-Harm Risk Assessment in Online Forums」
“在線論壇中的抑郁和自殘風險評估”
論文作者:Andrew Yates, Arman Cohan and Nazli Goharian
EMNLP暫時未公布這篇論文的更多細節(jié)
「Natural Language Does Not Emerge 'Naturally' in Multi-Agent Dialog」
“多智能體對話中的自然語言不是真的‘自然地’產生的”
論文簡介:近期已經有一系列研究提出了在協作多智能體群體中做溝通協議學習的端到端方法,而且同時發(fā)現了這些智能體產生的溝通協議中出現了人類可以解釋的實證語言,這些都是在無需人類監(jiān)督的狀況下學習到的。在這篇論文中,作者們以一項兩個智能體間的任務描述推理游戲為測試環(huán)境,展示了從“負面”到“正面”的一系列結果,表明了雖然多數有智能體參與的語言是有效的(表現為取得了接近完美的任務回報),但是它們都自主選擇成為了既不可解釋、又不具有組合性的語言。究其根本,作者們發(fā)現自然語言并不是真的“自然地”產生的,盡管近期的文獻中可以看到自然語言的產生很簡單的表象。作者們探討了如何如何引導這些新創(chuàng)作的語言,來讓它們越來越像人類的語言、越來越具有組合性,方法就是對兩個智能體可能的溝通方式中加入更多的限制。
論文作者:Satwik Kottur, José Moura, Stefan Lee and Dhruv Batra.
「Bringing Structure into Summaries: Crowdsourcing a Benchmark Corpus of Concept Maps」
“給文檔總結加上結構:眾包得到的概念圖語料庫 benchmark”
論文簡介:概念圖可以用來簡明地表達重要信息以及給大型文檔集合建立結構。所以,作者們研究了一系列概念圖形式的多文檔總結方式。然而,目前沒有合適的數據集可以用在這項任務中。為了補上這個缺口,作者們介紹了一組新創(chuàng)造的概念圖語料庫,它對關于教育話題的各種各樣的網絡文檔做了總結。在它的創(chuàng)立過程中使用了一種新的眾包方法,讓作者們能夠高效地判定大規(guī)模文檔集合中的重要元素。與這個語料庫同時發(fā)布的還有一個基準系統和作者們提出的評估流程,以便未來的研究者更好地進行這一系列總結方式的研究。
論文作者:Tobias Falke and Iryna Gurevych.
EMNLP 2017會議期間,雷鋒網 AI 科技評論也會派出記者帶來全方位報道,敬請期待。同時歡迎閱讀近期的更多學術會議報道。
雷鋒網 AI 科技評論編譯。
相關文章:
首發(fā)!三角獸被 EMNLP 錄取論文精華導讀:基于對抗學習的生成式對話模型淺說
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。