0
本文作者: sanman | 編輯:汪思穎 | 2018-07-13 17:15 | 專題:ACL 2018 |
雷鋒網(wǎng) AI 科技評(píng)論按:7 月 9 日,自然語(yǔ)言處理頂會(huì) ACL 公布了最佳 demo 論文的四篇候選論文,名單如下:
CRUISE: Cold-Start New Skill Development via Iterative Utterance Generation
Out-of-the-box Universal Romanization Tool
Platforms for Non-Speakers Annotating Names in Any Language
YEDDA: A lightweight Collaborative Text Span Annotation Tool
值得注意的是,四篇論文中有三篇論文的一作是中國(guó)研究者,他們分別是目前任職于三星美國(guó)研究中心的 Yilin Shen,倫斯勒理工學(xué)院博士生 Ying Lin,新加坡科技設(shè)計(jì)大學(xué)(SUTD)博士生 Jie Yang。最佳 demo 論文獎(jiǎng)將在主會(huì)最佳論文 session 環(huán)節(jié)揭曉,屆時(shí)雷鋒網(wǎng) AI 科技評(píng)論將會(huì)第一時(shí)間帶來(lái)現(xiàn)場(chǎng)報(bào)導(dǎo)。
本文將對(duì)這四篇論文進(jìn)行簡(jiǎn)單介紹。
CRUISE: Cold-Start New Skill Development via Iterative Utterance Generation
CRUISE:基于迭代語(yǔ)料生成的冷啟動(dòng)新技能開(kāi)發(fā)
論文摘要:我們提出了 CRUISE 系統(tǒng),它可以指導(dǎo)普通軟件開(kāi)發(fā)者從頭開(kāi)始構(gòu)建高質(zhì)量的自然語(yǔ)言理解(NLU)引擎。構(gòu)建該引擎是給個(gè)人助手(智能語(yǔ)音助手)添加新技能的基礎(chǔ)步驟。與開(kāi)發(fā)者或眾包手動(dòng)標(biāo)注大量語(yǔ)料的現(xiàn)有解決方案不同,我們?cè)O(shè)計(jì)了一種基于規(guī)則和數(shù)據(jù)驅(qū)動(dòng)的混合方法,該方法可以迭代生成越來(lái)越多的語(yǔ)料。我們的系統(tǒng)只需要少量人工在迭代中修改錯(cuò)誤語(yǔ)料即可。CRUISE 系統(tǒng)會(huì)生成一個(gè)「訓(xùn)練有素」的 NLU 引擎,同時(shí)還會(huì)生成一個(gè)大型已注釋語(yǔ)料庫(kù),第三方可以基于此來(lái)開(kāi)發(fā)自定義技能。通過(guò)使用基準(zhǔn)數(shù)據(jù)集和自定義數(shù)據(jù)集,我們收集到了現(xiàn)實(shí)世界的設(shè)定,NLU 性能比賽和人類(lèi)評(píng)價(jià)則證實(shí)了 CRUISE 生成語(yǔ)料的高質(zhì)量。我們的工作大幅降低了人類(lèi)認(rèn)知負(fù)荷,同時(shí)縮短了人工剪枝時(shí)間。
論文作者:Yilin Shen, Avik Ray, Abhishek Patel,Hongxia Jin
Out-of-the-box Universal Romanization Tool
開(kāi)箱即用的通用羅馬化工具
論文摘要:我們想介紹 uroman,這個(gè)工具可以把五花八門(mén)的語(yǔ)言和文字(如中文、阿拉伯語(yǔ)、西里爾文)轉(zhuǎn)換為普通拉丁文。該工具基于 Unicode 數(shù)據(jù)以及其他表,可以處理幾乎所有的字符集(包括一些晦澀難懂的語(yǔ)言比如藏文和提非納文)。uroman 還可以將不同文本中的數(shù)字轉(zhuǎn)換為阿拉伯?dāng)?shù)字。羅馬化讓比較不同文本的字符串相似性變得更加容易,因?yàn)椴辉傩枰獙煞N文字翻譯成中間文字再比較。本工具作為一個(gè) Perl 腳本,可以免費(fèi)提供,可用于數(shù)據(jù)處理管道和交互式演示網(wǎng)頁(yè)。
論文作者:Ulf Hermjakob, Jonathan May,Kevin Knight
Platforms for Non-Speakers Annotating Names in Any Language
未知語(yǔ)言標(biāo)注平臺(tái)
論文摘要:我們將演示兩個(gè)標(biāo)注平臺(tái),在該平臺(tái)上,英語(yǔ)母語(yǔ)者即使不熟悉某種語(yǔ)言也可以用該語(yǔ)言進(jìn)行標(biāo)注。這些平臺(tái)可以為低資源語(yǔ)言提供高質(zhì)量的「銀標(biāo)」注釋。平臺(tái)目前在 LoreHLT20171 上的奧羅莫語(yǔ)和提格里尼亞語(yǔ)上取得了最佳成績(jī),在 TAC-KBP EDL2017 的十項(xiàng)語(yǔ)言上取得了最佳成績(jī)。我們討論了平臺(tái)的優(yōu)點(diǎn)和局限性,并與其他的未知語(yǔ)言標(biāo)注方法進(jìn)行了比較。我們將向研究者們公開(kāi)該工具。
論文作者:Ying Lin, Cash Costello, Boliang Zhang, Di Lu, Heng Ji, James Mayfield,Paul McNamee
YEDDA: a lightweight collaborative text span annotation tool
YEDDA:一種輕量型文本范圍注釋工具
論文摘要:在論文中,我們將介紹 YEDDA——一個(gè)輕量、高效且全面的開(kāi)源文本范圍注釋工具。Yedda 為文本范圍注釋提供了系統(tǒng)化的解決方案,涵蓋了用戶協(xié)作標(biāo)注到管理員評(píng)估與分析等需求。Yedda 可以用命令行和快捷鍵對(duì)文本進(jìn)行標(biāo)注,并以此克服傳統(tǒng)文本標(biāo)注工具的低效率,用戶可以自定義命令行和快捷鍵。Yedda 還可以通過(guò)學(xué)習(xí)最新標(biāo)注文本智能化為用戶提供標(biāo)注意見(jiàn)。我們還開(kāi)發(fā)了管理員客戶端用以評(píng)估多個(gè)注釋器的標(biāo)注質(zhì)量,并為每個(gè)注釋器生成詳細(xì)的比較報(bào)告。實(shí)驗(yàn)表明,相較于現(xiàn)有標(biāo)注工具,我們的系統(tǒng)可以節(jié)省一半的時(shí)間,使用智能推薦還能再節(jié)省 16.47% 的時(shí)間。
論文作者:Jie Yang, Yue Zhang, Linwei Li and Xingxuan Li
via:https://acl2018.org/2018/07/09/best-demo-candidates/
雷鋒網(wǎng) AI 科技評(píng)論將會(huì)第一時(shí)間為大家?guī)?lái) ACL 現(xiàn)場(chǎng)報(bào)道,敬請(qǐng)關(guān)注。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章