丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

EMNLP2018上FB、谷歌繼續(xù)并肩「刷榜」,瓜分最佳長論文和十分之一接受論文

本文作者: 楊曉凡 2018-11-01 22:07
導語:好的數(shù)據(jù)挖掘點子給自然語言語料帶來新的活力


EMNLP2018上FB、谷歌繼續(xù)并肩「刷榜」,瓜分最佳長論文和十分之一接受論文

雷鋒網(wǎng) AI 科技評論按,自然語言處理頂會 EMNLP 2018 已經(jīng)于 10 月 31 日開始了 Tutorial,正會將從 11 月 2 日開始。2017 年中,詞嵌入(word-embedding)毫無疑問是最為火熱的方法,以至于有人開玩笑說 EMNLP 的名稱「自然語言處理實證方法(Empirical Methods in Natural Language Processing)」還不如解釋為「自然語言處理嵌入方法(Embedding Methods in Natural Language Processing)」。 

不過學術(shù)界顯然不會滿足于詞嵌入一種方法,2018 年發(fā)表的成果就多樣化地在更有難度的任務的嘗試、對已有方法的更深入的探討、對新方向的探索中展現(xiàn)了計算語言學的更多可能。這股新風氣在同為自然語言處理頂會的 ACL 2018 的參會見聞中也有詳細說明。

作為有專門的人工智能學術(shù)性研究院、有大規(guī)模團隊和高額科研預算的企業(yè),F(xiàn)acebook 和谷歌一如既往地在 EMNLP 2018 上收獲頗豐。Facebook 有 14 篇論文被 EMNLP 接受,谷歌則有多達 26 篇(有一篇是兩者合作完成)。雖然目前 EMNLP 還沒有正式宣布論文接受數(shù)目,但雷鋒網(wǎng) AI 科技評論預計這個數(shù)目大概會在四百多篇。這樣一來,有接近 10% 的收錄論文就直接被 Facebook 和谷歌「承包」了。而且,EMNLP 2018 的兩篇最佳長論文也剛好一篇出自 Facebook,一篇出自谷歌。

下面我們來詳細看看這些研究成果。(文末提供這 39 篇論文的打包下載)

谷歌成果

(也許與谷歌的研究人員人數(shù)眾多有關(guān),)谷歌在這次 EMNLP 2018 中的參與程度非常高。不僅有多位谷歌研究員將會在 EMNLP 大會中發(fā)表演講,涉及主題包括語言身份識別、分割、語義解析、問答系統(tǒng),還有許多人員參與到了會議各個級別的組織工作中。

借著論文被接受,谷歌也隆重推出了四個用于 NLP 任務的數(shù)據(jù)集。與現(xiàn)有的學術(shù)數(shù)據(jù)集在較理想的環(huán)境下進行評估不同,這四個新的數(shù)據(jù)集更關(guān)注的是實際部署的 NLP 系統(tǒng)會遇到的不那么規(guī)范的用戶輸入,都包含了真實的、自然人類交流中會出現(xiàn)的文本。同時這四個數(shù)據(jù)集也可以兩類,一類是對目前已經(jīng)過較多研究的核心 NLP 任務提出更高的挑戰(zhàn),另一類則是在對語句重構(gòu)/編輯并保持語義不變的條件下鼓勵探索新的研究方向。這些數(shù)據(jù)集的收集方式也非常有趣,讓人不得不感慨這個時代真是數(shù)據(jù)無處不在、無所不能。

數(shù)據(jù)集列表

Noun-Verb Ambiguity in POS Tagging Dataset,部分對話標注中的非動詞單詞歧義性數(shù)據(jù)集。出自論文《A Challenge Set and Methods for Noun-Verb Ambiguity》。這個數(shù)據(jù)集研究了非動詞單詞歧義性引起的部分對話標注中的錯誤。數(shù)據(jù)集中包含了 3 萬個經(jīng)過標注的人類語言中自然出現(xiàn)的非平凡的非動詞單詞歧義的例子。不同的部分對話標注方法的準確率在這個數(shù)據(jù)集上分布在 57% 到 75% 之間。

Query Wellformedness Dataset,問題完備性數(shù)據(jù)集。出自論文《Identifying Well-formed Natural Language Questions》。這個數(shù)據(jù)集研究了搜索引擎中通常由關(guān)鍵詞簡單串聯(lián)起來形成的用戶輸入與自然語言表述的完整句子構(gòu)成的問答之間的關(guān)系。在實際應用中,區(qū)分關(guān)鍵詞組成的搜索詞組與自然語言問句也有很大的應用價值。這個數(shù)據(jù)集中包含了 2.5 萬個標注問句,并且?guī)в性u分,評價這些問句與形式完備的自然語言問句之間的接近程度。

WikiSplit 數(shù)據(jù)集,分割與重新組織語句的語料。出自論文《Learning To Split and Rephrase From Wikipedia Edit History》。這個數(shù)據(jù)集是從維基百科的編輯記錄中抽取樣本,專門關(guān)注了從一個長句拆分成兩個獨立的短句,同時這兩個短句合起來表示的意思和原來的長句相同的樣本。這個數(shù)據(jù)集包含了一百萬個句子拆分樣本,詞匯量超過為六十萬詞。

WikiAtomicEdits 數(shù)據(jù)集,來自原子性的維基百科編輯記錄的多語言對照語料。出自論文《WikiAtomicEdits: A Multilingual Corpus of Wikipedia Edits for Modeling Language and Discourse》。研究人們編輯維基百科時的語言運用方式可以用來理解語言自己的結(jié)構(gòu)。在這項研究中,谷歌的研究人員們專門關(guān)注了兩種原子編輯操作:對一段連續(xù)的文本的一次性插入或者刪除操作。他們從編輯記錄中提取出了涵蓋 8 中語言的共四千三百萬次這樣的編輯操作,并表明了這些操作對于語言的蘊含和論述提供了有價值的信息。

論文列表

A Challenge Set and Methods for Noun-Verb Ambiguity

A Fast, Compact, Accurate Model for Language Identification of Codemixed Text

AirDialogue: An Environment for Goal-Oriented Dialogue Research

Content Explorer: Recommending Novel Entities for a Document Writer

Deep Relevance Ranking using Enhanced Document-Query Interactions

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

Identifying Well-formed Natural Language Questions

Learning To Split and Rephrase From Wikipedia Edit History

Linguistically-Informed Self-Attention for Semantic Role Labeling

Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text

Noise Contrastive Estimation for Conditional Models: Consistency and Statistical Efficiency

Part-of-Speech Tagging for Code-Switched, Transliterated Texts without Explicit Language Identification

Phrase-Indexed Question Answering: A New Challenge for Scalable Document Comprehension

Policy Shaping and Generalized Update Equations for Semantic Parsing from Denotations

Revisiting Character-Based Neural Machine Translation with Capacity and Compression

Self-governing neural networks for on-device short text classification

Semi-Supervised Sequence Modeling with Cross-View Training

State-of-the-art Chinese Word Segmentation with Bi-LSTMs

Subgoal Discovery for Hierarchical Dialogue Policy Learning

SwitchOut: an Efficient Data Augmentation Algorithm for Neural Machine Translation

The Importance of Generation Order in Language Modeling

Training Deeper Neural Machine Translation Models with Transparent Attention

Understanding Back-Translation at Scale

Unsupervised Natural Language Generation with Denoising Autoencoders

WikiAtomicEdits: A Multilingual Corpus of Wikipedia Edits for Modeling Language and Discourse

WikiConv: A Corpus of the Complete Conversational History of a Large Online Collaborative Community

Facebook

與谷歌類似,F(xiàn)acebook 也在開發(fā)新的數(shù)據(jù)集上花了不少功夫。他們這次在 EMNLP 2018 上帶來的數(shù)據(jù)集是 XNLI,它可以用于自然語言處理中的跨語言處理方法。這個數(shù)據(jù)集在目前廣泛使用的 MultiNLI 多風格自然語言推理語料庫基礎(chǔ)上增加了 14 種新的語言,其中包括了兩種稀缺語料資源的語言斯瓦希里語與烏爾都語。

論文列表

A Dataset for Telling the Stories of Social Media Videos

Auto-Encoding Dictionary Definitions into Consistent Word Embeddings

Do explanations make VQA models more predictable to a human?

Dynamic Meta-Embeddings for Improved Sentence Representations

Extending Neural Generative Conversational Model using External Knowledge Sources

How agents see things: On visual representations in an emergent language game

Loss in Translation: Learning Bilingual Word Mapping with a Retrieval Criterion

Neural Compositional Denotational Semantics for Question Answering

Non-Adversarial Unsupervised Word Translation

Phrase-Based & Neural Unsupervised Machine Translation

Semantic Parsing for Task Oriented Dialog using Hierarchical Representations

Training Millions of Personalized Dialogue Agents

Understanding Back-Translation at Scale

XNLI: Evaluating Cross-lingual Sentence Representations

論文打包下載請訪問 http://ai.yanxishe.com/page/resourceDetail/622。更多 EMNLP 2018 報道,請繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評論。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

EMNLP2018上FB、谷歌繼續(xù)并肩「刷榜」,瓜分最佳長論文和十分之一接受論文

分享:
相關(guān)文章

讀論文為生

日常笑點滴,學術(shù)死腦筋
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說