丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給叢末
發(fā)送

0

關(guān)于數(shù)據(jù)增強(qiáng)在機(jī)器翻譯中的應(yīng)用現(xiàn)狀和前景,劉群、黃輝等專場(chǎng)探討

本文作者: 叢末 2019-10-06 22:55
導(dǎo)語(yǔ):數(shù)據(jù)增強(qiáng)技術(shù)在其他 NLP 任務(wù)中,應(yīng)用潛力又如何呢?

雷鋒網(wǎng) AI 科技評(píng)論按:第十五屆全國(guó)機(jī)器翻譯大會(huì)(The 15th China Conference on Machine Translation, CCMT 2019)于2019年9月27日至29日在江西南昌舉行。本次會(huì)議由中國(guó)中文信息學(xué)會(huì)主辦,江西師范大學(xué)承辦。CCMT旨在為國(guó)內(nèi)外機(jī)器翻譯界同行提供一個(gè)交互平臺(tái),加強(qiáng)國(guó)內(nèi)外同行的學(xué)術(shù)交流,召集各路專家學(xué)者針對(duì)機(jī)器翻譯的理論方法、應(yīng)用技術(shù)和評(píng)測(cè)活動(dòng)等若干關(guān)鍵問(wèn)題進(jìn)行深入的研討,為促進(jìn)中國(guó)機(jī)器翻譯事業(yè)的發(fā)展,起到積極的推動(dòng)作用。

近年來(lái),隨著深度學(xué)習(xí)的出現(xiàn)和計(jì)算能力的提高,機(jī)器翻譯也取得了較大的進(jìn)展,在數(shù)據(jù)量比較充足的情況下,都能夠?qū)崿F(xiàn)非常不錯(cuò)的效果,然而在一些資源稀缺、領(lǐng)域或者說(shuō)小語(yǔ)種的翻譯任務(wù)上,有時(shí)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的表現(xiàn)甚至還不如基于統(tǒng)計(jì)的機(jī)器翻譯。對(duì)此,研究人員提出了一些數(shù)據(jù)增強(qiáng)的技術(shù),例如 Back Translation、將一些詞替換成一些相似的詞等,以此來(lái)增加機(jī)器翻譯的數(shù)據(jù),從而提高機(jī)器翻譯的質(zhì)量。

在 9 月 27 日至 29 日召開的全國(guó)機(jī)器翻譯大會(huì)(CCMT)上,一場(chǎng)主題為「機(jī)器翻譯數(shù)據(jù)增強(qiáng)技術(shù)探索」的圓桌會(huì)就為大家?guī)?lái)了數(shù)據(jù)增強(qiáng)技術(shù)在機(jī)器翻譯中的應(yīng)用現(xiàn)狀以及未來(lái)的應(yīng)用前景的討論和展望。

關(guān)于數(shù)據(jù)增強(qiáng)在機(jī)器翻譯中的應(yīng)用現(xiàn)狀和前景,劉群、黃輝等專場(chǎng)探討

從左到右:劉樹杰博士、陳毅東副教授、陳博興博士、劉群教授、黃輝副教授、王明軒博士

本場(chǎng)圓桌會(huì)由微軟亞洲研究院高級(jí)研究員劉樹杰博士主持,華為諾亞方舟實(shí)驗(yàn)室語(yǔ)音語(yǔ)義首席科學(xué)家劉群教授、阿里巴巴達(dá)摩院資深算法專家陳博興博士、澳門大學(xué)科技學(xué)院電腦及資訊科學(xué)系黃輝副教授、廈門大學(xué)信息學(xué)院陳毅東副教授,以及字節(jié)跳動(dòng)翻譯技術(shù)負(fù)責(zé)人王明軒博士五位機(jī)器翻譯領(lǐng)域的專家坐鎮(zhèn)。

我們下面來(lái)看本場(chǎng)圓桌會(huì)中,各位專家都探討了哪些話題~

目前機(jī)器翻譯中最常用的數(shù)據(jù)增強(qiáng)方法:Back Translation

劉樹杰:大家在機(jī)器翻譯領(lǐng)域的研究和工作中應(yīng)用到的數(shù)據(jù)增強(qiáng)技術(shù)主要有哪些?

陳毅東:我本人在數(shù)據(jù)增強(qiáng)方面并沒有很深入的研究,但是我在與學(xué)生做評(píng)測(cè)過(guò)程中確實(shí)也用到了一些數(shù)據(jù)增強(qiáng)技術(shù),主要有兩個(gè):一個(gè)是比較常用的 Back Translation;另一個(gè)是我們?nèi)ツ陞⒓?CCMT 多語(yǔ)言評(píng)測(cè)時(shí),通過(guò)加入多語(yǔ)言的標(biāo)簽來(lái)利用其它多語(yǔ)言對(duì)訓(xùn)練模型做數(shù)據(jù)增強(qiáng),這種方法類似于 Back Translation 的變體。

陳博興:阿里主要偏向應(yīng)用,目前在機(jī)器翻譯場(chǎng)景下用得最多并且最有用的,還是 Back Translation。其次,我們?cè)谧?Quality Estimation 的時(shí)候,也會(huì)采用對(duì)齊技術(shù)生成類似于給詞打「Bad」和「OK」標(biāo)簽的偽數(shù)據(jù)的方法。另外我們?cè)?Disfluency Detection,即口語(yǔ)輸出的不流利檢測(cè)中也會(huì)加一些偽數(shù)據(jù),人為基于規(guī)則加入的一些不流利數(shù)據(jù)本身也就自帶了標(biāo)簽。所以,我們?cè)诓煌膱?chǎng)景下,一般都會(huì)用到類似的生成偽數(shù)據(jù)的方法。

劉群:我認(rèn)為數(shù)據(jù)增強(qiáng)是一項(xiàng)重要的技術(shù),因?yàn)槠鋵?shí)不光是機(jī)器翻譯,自然語(yǔ)言處理的很多研究方向,特別是在工業(yè)界,數(shù)據(jù)稀缺都是一個(gè)很大的問(wèn)題。到華為以后,我發(fā)現(xiàn)了一個(gè)研究課題,叫做文本復(fù)述(paraphrasing),這個(gè)課題我之前也了解過(guò),但是不怎么感興趣,而到工業(yè)界后,我發(fā)現(xiàn) paraphrasing 太有用了,并且應(yīng)用價(jià)值比我想象得要大得多,因?yàn)楣I(yè)界的大部分應(yīng)用場(chǎng)景都沒有標(biāo)注數(shù)據(jù)。

現(xiàn)在大家都提到 Back Translation 在機(jī)器翻譯中特別有用,我們?cè)谙嚓P(guān)工作中應(yīng)用這項(xiàng)數(shù)據(jù)增強(qiáng)技術(shù)時(shí),也發(fā)現(xiàn)它非常有用。并且,Back Translation 這個(gè)課題本身還是很值得研究的,比如我今年參加 WMT 評(píng)測(cè)的時(shí)候,就發(fā)現(xiàn)大家都在對(duì)這個(gè)方法本身做一些改進(jìn),而其實(shí) Facebook 去年就針對(duì) Back Translation 做了一些改進(jìn)工作,今年則有更多單位都在往這個(gè)方向做相關(guān)工作,我認(rèn)為都是比較有價(jià)值的。

我今天之所以在這里提這一點(diǎn),一是因?yàn)?Back Translation 確實(shí)很有用,二是因?yàn)樗旧淼膽?yīng)用是有一些小技巧的,大家可以更加深入地研究。

另外值得一提的是,我們現(xiàn)在一個(gè)比較有意思的工作是采用字典的方式做數(shù)據(jù)增強(qiáng)。其實(shí)現(xiàn)在很多場(chǎng)景可能沒有雙語(yǔ)數(shù)據(jù),但都有字典。以我們今年參加 WMT 的 Biomedical 機(jī)器翻譯任務(wù)為例,中-英基本沒有雙語(yǔ)數(shù)據(jù),但有字典,在這種場(chǎng)景下,如何利用字典來(lái)生成領(lǐng)域內(nèi)的雙語(yǔ)數(shù)據(jù)呢?這是我認(rèn)為比較有意思的一個(gè)研究課題,目前我們也在這個(gè)方向上做了一些工作。

黃輝:我也分享一下我們是在機(jī)器翻譯的數(shù)據(jù)增強(qiáng)方面的一些經(jīng)驗(yàn)。除了簡(jiǎn)單的進(jìn)行數(shù)據(jù)增強(qiáng),我們也從不同的層次在做一些嘗試,主要分為三個(gè)層次:

  • 第一個(gè)是句子的層次,Back Translation 就是一個(gè)很好的例子。

  • 第二個(gè)是詞的層次,比如說(shuō)采用加噪音、扔詞、換詞等方式。我認(rèn)為這個(gè)層次上,數(shù)據(jù)增強(qiáng)主要解決兩個(gè)問(wèn)題,一個(gè)是魯棒性的問(wèn)題,即讓系統(tǒng)獲得更多不同樣式的句子來(lái)學(xué)習(xí),二是過(guò)擬合的問(wèn)題。

  • 第三個(gè)是詞向量的層次,我們之前做了一個(gè)工作,叫做 Shared Private Embedding,比如說(shuō)在 Low-resource 機(jī)器翻譯的情況下,我們根據(jù)源端和目標(biāo)端的詞對(duì)齊信息,將兩端的詞匯進(jìn)行不同程度詞向量的共享。

同時(shí),我們發(fā)現(xiàn)在做無(wú)監(jiān)督機(jī)器翻譯時(shí),在學(xué)習(xí)詞向量的映射關(guān)系上,Back Translation 有助于學(xué)習(xí)好詞向量對(duì)齊信息,效果非常好。所以說(shuō),Back Translation 除了在數(shù)據(jù)增強(qiáng)方面很有用,在無(wú)監(jiān)督機(jī)器翻譯方面也作用很大。

王明軒:黃老師其實(shí)是從粒度的層次來(lái)分。我覺得在預(yù)訓(xùn)練上,如果從應(yīng)用角度來(lái)看,可以分為兩個(gè)方向:

第一種是目標(biāo)端有語(yǔ)料,源端沒有語(yǔ)料。比較常用的 back translation 就是這種情況的一個(gè)典型方法。第二種情況是源端有語(yǔ)料,目標(biāo)端沒有語(yǔ)料。

Back translation 的有效性是充分驗(yàn)證的,但是這塊的理論分析目前還是沒有形成統(tǒng)一的認(rèn)識(shí),其中一個(gè)原因是目前大部分研究是在一些限定的數(shù)據(jù)集上使用這一方法。而從工業(yè)界來(lái)看,我認(rèn)為很有意思的一個(gè)不同點(diǎn)在于,學(xué)術(shù)界中的訓(xùn)練數(shù)據(jù)是固定的,并且和通常情況下無(wú)監(jiān)督單語(yǔ)數(shù)據(jù)、雙語(yǔ)數(shù)據(jù)和測(cè)試集的分布也是一致的。這種情況下,數(shù)據(jù)增強(qiáng)的上限相對(duì)比較低,很多結(jié)論都認(rèn)為單語(yǔ)數(shù)據(jù)有效但是不應(yīng)該增加太多,比如超過(guò)一倍,其實(shí)是因?yàn)闊o(wú)監(jiān)督數(shù)據(jù)多樣性不夠,而且對(duì)訓(xùn)練集的補(bǔ)充不夠;然而在工業(yè)界,我們比較喜歡更大規(guī)模的單語(yǔ)數(shù)據(jù),保證數(shù)據(jù)的多樣性,幾乎可以認(rèn)為單語(yǔ)數(shù)據(jù)能一直增加即使是雙語(yǔ)數(shù)據(jù)的 10 倍,也是有效的。比如說(shuō) GPT 匯聚了整個(gè)互聯(lián)網(wǎng)的數(shù)據(jù),它可能不再需要考慮領(lǐng)域的問(wèn)題了,因?yàn)樗鼛缀踉谒蓄I(lǐng)域上的表現(xiàn)的都非常好。

而 Back Translation 其實(shí)也是這種思路,即一直去采樣多樣化的數(shù)據(jù)。而且我個(gè)人認(rèn)為,只要目標(biāo)的數(shù)據(jù)是真實(shí)的,采樣的數(shù)據(jù)是沒有上限的。

第二種恰好是一個(gè)對(duì)偶問(wèn)題,也就是如何去利用源端的數(shù)據(jù),這一點(diǎn)其他各位老師提的比較少。我們現(xiàn)在一直在使用微軟的一項(xiàng)工作,叫做 R2L Regularization,普遍的認(rèn)知是源端的數(shù)據(jù)必須是真的,而在微軟的這項(xiàng)工作中,即使源端數(shù)據(jù)是偽數(shù)據(jù),同樣有效。這項(xiàng)工作提供的一個(gè)視角是從表示上來(lái)進(jìn)行數(shù)據(jù)增強(qiáng),我認(rèn)為也可以從模型集成的角度出發(fā),即一個(gè)系統(tǒng)從另一個(gè)系統(tǒng)采樣的結(jié)果來(lái)學(xué)習(xí)知識(shí)。

另外,黃老師剛剛提到的預(yù)訓(xùn)練模型也是一個(gè)角度。比如說(shuō)有大量的 Monoligual data,可以去比較自然地將比如說(shuō) BERT 結(jié)合到機(jī)器翻譯中,目前我們?cè)谶@方面也在做一些工作,我認(rèn)為這個(gè)方向未來(lái)也比較有前景。

劉樹杰:大家剛剛都總結(jié)得很好,大家都提到了 Back Translation,并且感覺是非常有用的,但是它本質(zhì)上就像王老師所說(shuō)的,真的目標(biāo)數(shù)據(jù)生成假的源數(shù)據(jù),這種方式為什么比真的源數(shù)據(jù)生成假的目標(biāo)數(shù)據(jù)更有效一些?大家認(rèn)為這是什么原因?

王明軒:源語(yǔ)言數(shù)據(jù)對(duì)源語(yǔ)言表示增強(qiáng)肯定是有用的,但是如果用它來(lái)生成假的目標(biāo)數(shù)據(jù)進(jìn)行學(xué)習(xí)的話,可能無(wú)法完全獲得源信息,利用是不夠充分的。我認(rèn)為對(duì)源語(yǔ)言數(shù)據(jù)的利用最有效的可能是 pretrain。目標(biāo)語(yǔ)言的利用可能更自然一些,通過(guò) Back translation 生成的數(shù)據(jù)目標(biāo)端始終是真實(shí)的。

劉群:我覺得這一點(diǎn)其實(shí)很好理解,比如我們做 SMT 時(shí),我們做語(yǔ)言模型肯定是在目標(biāo)端做,而不會(huì)在源端做。如果源端翻譯成假的目標(biāo)數(shù)據(jù),是會(huì)干擾到目標(biāo)端的語(yǔ)言模型的。反過(guò)來(lái),目標(biāo)端翻譯成假的源數(shù)據(jù),實(shí)際上我們是比較少遇到這種數(shù)據(jù)的,因而不會(huì)對(duì)翻譯產(chǎn)生不好的影響。而且目標(biāo)端一定要是真,才能夠保證生成比較好的數(shù)據(jù)。

陳博興:關(guān)于這一點(diǎn),其實(shí)我們之前做過(guò)一個(gè)小的實(shí)驗(yàn),是在數(shù)據(jù)比較小但是真實(shí)的情況下,真的目標(biāo)數(shù)據(jù)翻成假源數(shù)據(jù)比真的源數(shù)據(jù)翻成假的目標(biāo)數(shù)據(jù)更有用,剛剛劉群老師也講的很清楚了,我不再重復(fù)。

實(shí)驗(yàn)中,假如我們有非常多真實(shí)的數(shù)據(jù),比如說(shuō)有一億個(gè)數(shù)據(jù),用我們的系統(tǒng)對(duì)這一億個(gè)原文進(jìn)行翻譯,然后用生成的目標(biāo)偽數(shù)據(jù)再翻譯一遍,我們發(fā)現(xiàn)偽數(shù)據(jù)翻譯出來(lái)的結(jié)果比前一個(gè)億的真實(shí)數(shù)據(jù)翻譯出來(lái)的結(jié)果更好。其中的關(guān)鍵在于,你用來(lái)系統(tǒng)生成的目標(biāo)偽數(shù)據(jù)是否靠譜,數(shù)據(jù)量大的話,可以做規(guī)整化;數(shù)據(jù)量小的話,生成的目標(biāo)偽數(shù)據(jù)可能就不靠譜了。

劉樹杰:Back Translation 有幾種生成偽數(shù)據(jù)的方法,比如說(shuō)基于 Beam Search 的,基于 Greedy Search 的,或基于 Sampling 的,不同的策略可能會(huì)帶來(lái)不同的效果,而且不同的方法生成偽數(shù)據(jù)的速度也會(huì)不同。不知道大家都是使用哪種策略?

陳博興:其實(shí)由于我們的算力不成問(wèn)題,所以我們通常使用的方法是 Beam Search。

數(shù)據(jù)增強(qiáng)在資源豐富的翻譯任務(wù)上是否有用?

劉樹杰:大家剛剛談到的都是在一些資源稀缺的任務(wù)上進(jìn)行數(shù)據(jù)增強(qiáng),不知道在例如中-英、英-法此類資源豐富的翻譯任務(wù)上,數(shù)據(jù)增強(qiáng)技術(shù)是否也有一些作用?

劉群:我認(rèn)為還是很有用的,因?yàn)閿?shù)據(jù)永遠(yuǎn)都不會(huì)太多,不會(huì)完全足夠。比如說(shuō)在中-英任務(wù)上,原本就已經(jīng)有上千萬(wàn)的數(shù)據(jù),我們使用數(shù)據(jù)增強(qiáng)來(lái)增加數(shù)據(jù)還是非常有用的。

陳博興:如果是領(lǐng)域數(shù)據(jù),比如說(shuō)醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)很少,那我們做數(shù)據(jù)增強(qiáng)是很有幫助的,但是如果是一個(gè)擁有 4 到 5 億的訓(xùn)練數(shù)據(jù)的通用領(lǐng)域,再增加很多的偽數(shù)據(jù),其實(shí)基本上不能帶來(lái)收益。所以我認(rèn)為關(guān)鍵是要看某個(gè)真實(shí)場(chǎng)景中所需要的數(shù)據(jù)是否足夠,如果足夠的話,增加更多的偽數(shù)據(jù)可能就不一定有用了;如果還不夠的話,那就是有用的。

劉群:我不太同意陳老師的看法。比如說(shuō)雖然你原本的數(shù)據(jù)足夠大,基本能覆蓋測(cè)試數(shù)據(jù),然而還可能還存在測(cè)試數(shù)據(jù)沒有覆蓋到的情況,這樣的情況下,增加的偽數(shù)據(jù)可能就恰好覆蓋到了原來(lái)數(shù)據(jù)沒有覆蓋到的情況,這同樣是有用的。正如剛剛明軒提到的,我們對(duì)數(shù)據(jù)的要求是無(wú)窮無(wú)盡的,數(shù)據(jù)是永遠(yuǎn)不會(huì)足夠的。

陳博興:一種情況是原本的數(shù)據(jù)完全能覆蓋評(píng)測(cè)數(shù)據(jù),另一種情況就是剛剛劉群老師提到的情況,但在這種情況下,增加偽數(shù)據(jù)也會(huì)帶來(lái)噪聲。另外大家剛提到的觀點(diǎn)——「只要目標(biāo)端數(shù)據(jù)是真的,哪怕源端的數(shù)據(jù)是假的,關(guān)系不大」,我認(rèn)為也并不是完全絕對(duì)的,因?yàn)橹灰獛?lái)了噪聲,其實(shí)多少還是會(huì)有損害的。所以我們都要盡量模擬輸入數(shù)據(jù)原本的樣子,生成與原本數(shù)據(jù)類似的數(shù)據(jù),這樣才是有幫助的。

王明軒:對(duì),但有時(shí)候源端數(shù)據(jù)其實(shí)并不那么好,加一些噪音可能反而會(huì)提高效果。目前在我們的工作經(jīng)驗(yàn)中,Sampling 的數(shù)據(jù)增強(qiáng)效果要比 Beam Search 要好,當(dāng)然大家的經(jīng)驗(yàn)可能有些不太一樣。

預(yù)訓(xùn)練模型如何與現(xiàn)有數(shù)據(jù)增強(qiáng)技術(shù)結(jié)合得更好?

劉樹杰:剛剛王明軒老師和黃輝老師都提到,其實(shí)預(yù)訓(xùn)練模型也是數(shù)據(jù)增強(qiáng)的一種方法,那它與現(xiàn)有的數(shù)據(jù)增強(qiáng)技術(shù)是否有比較好的結(jié)合方式呢?我知道今日頭條最近也做過(guò)一個(gè)相關(guān)的工作......

王明軒:我覺得這項(xiàng)工作其實(shí)結(jié)合得并不是很好。我認(rèn)為最好的方法應(yīng)該是一同對(duì)所有的數(shù)據(jù)進(jìn)行訓(xùn)練,而不是直接用預(yù)訓(xùn)練模型去做下游的任務(wù)。

劉群:我們嘗試過(guò)用預(yù)訓(xùn)練模型去改進(jìn)機(jī)器翻譯。實(shí)際上如果雙語(yǔ)的數(shù)據(jù)已經(jīng)很大了的話,預(yù)訓(xùn)練模型的作用不是很大。我們現(xiàn)在做的初步實(shí)驗(yàn)結(jié)果是這樣的。剛剛明軒提到的聯(lián)合訓(xùn)練,清華大學(xué)有一個(gè)叫程勇的博士生之前在一篇 ACL 2016 的論文中做過(guò)類似的工作,思路跟 Back Translation 差不多。

陳博興:目前 BERT 在機(jī)器翻譯任務(wù)中確實(shí)還沒有太大的提高,但是我相信會(huì)提高,因?yàn)閱握Z(yǔ)言的語(yǔ)料是無(wú)窮無(wú)盡的,BERT 等方法是能夠?qū)W到很多知識(shí)甚至一些常識(shí)的。有很多常識(shí)是我們現(xiàn)在沒有辦法描述出來(lái)的,但對(duì)于機(jī)器翻譯而言,肯定有較大的幫助,不過(guò)至于怎樣使用這些常識(shí)幫助機(jī)器翻譯,我們目前還沒走到這一步。

剛剛在臺(tái)下,我也在跟其他專家提到,我們要做一些有意思的機(jī)器翻譯測(cè)試,比如說(shuō)我們可以考慮構(gòu)建一個(gè)測(cè)試集,它的一個(gè)要求就是機(jī)器必須具備人的常識(shí)才能翻譯正確,這樣才能從常識(shí)的角度來(lái)提高機(jī)器翻譯的效果。而現(xiàn)在的測(cè)試中,機(jī)器翻譯即便沒有常識(shí)也能夠?qū)⒂⑽姆g得不錯(cuò),在這種情況下是很難推動(dòng)機(jī)器翻譯得到真正提高的。

劉群:但其實(shí)常識(shí)這個(gè)東西是很難定義的,相較于之前的 SMT 而言,現(xiàn)在機(jī)器已經(jīng)學(xué)到了不少常識(shí),但還是會(huì)犯常識(shí)性的錯(cuò)誤。所以到底要學(xué)習(xí)到多少常識(shí)才夠呢?我們目前也不好界定。

我自己也考慮過(guò)常識(shí)問(wèn)題,比如說(shuō),我們?cè)?jīng)用機(jī)器生成一個(gè)句子,結(jié)果生成的句子很奇怪——「一架飛機(jī)在離它機(jī)艙 50 米的地方爆炸了」,但是我們又說(shuō)不出這個(gè)句子犯的常識(shí)錯(cuò)誤在哪兒。因此這種隱藏得比較深的常識(shí),機(jī)器很難學(xué)到,而我們目前也沒有很好的辦法將這種常識(shí)錯(cuò)誤給總結(jié)出來(lái)。

劉樹杰:那您認(rèn)為現(xiàn)在是否到了去解決這種常識(shí)性問(wèn)題的時(shí)機(jī)呢?

劉群:我認(rèn)為現(xiàn)在是可以考慮的,并且我們現(xiàn)在到了應(yīng)該直面這個(gè)問(wèn)題的時(shí)候了。

數(shù)據(jù)增強(qiáng)技術(shù)在其他 NLP 任務(wù)中的應(yīng)用潛力如何?

劉樹杰:現(xiàn)在數(shù)據(jù)增強(qiáng)技術(shù)在機(jī)器翻譯中用得比較多了,那在其他 NLP 任務(wù)上有哪些應(yīng)用潛力呢?

黃輝:數(shù)據(jù)增強(qiáng)最早來(lái)自于圖像處理領(lǐng)域,相對(duì)而言,機(jī)器翻譯中的數(shù)據(jù)增強(qiáng)應(yīng)用還處于剛剛起步的階段。而在自然語(yǔ)言領(lǐng)域,BERT 是一個(gè)應(yīng)用數(shù)據(jù)增強(qiáng)技術(shù)的很好例子。

陳博興:剛剛我們提到在不流利檢測(cè)中也用到了數(shù)據(jù)增強(qiáng)技術(shù),其實(shí)所有有監(jiān)督的任務(wù),在數(shù)據(jù)量不夠的情況下,我們都可以用這種方法。并且深度學(xué)習(xí)方法出現(xiàn)以后,數(shù)據(jù)增強(qiáng)生成的這些偽數(shù)據(jù)都可以做預(yù)訓(xùn)練。所以,這種生成偽數(shù)據(jù)的方法可以擴(kuò)展到幾乎所有其他的場(chǎng)景中去。

王明軒:我們之前也做過(guò)一些實(shí)驗(yàn),即在 ASR 和 TTS 中做 Back Translation,然而發(fā)現(xiàn)數(shù)據(jù)增強(qiáng)在這些任務(wù)上并不是很有用,所以數(shù)據(jù)增強(qiáng)的效果可能跟任務(wù)的特性存在一定的關(guān)系。

劉群:其實(shí) NLP 領(lǐng)域中用數(shù)據(jù)增強(qiáng)技術(shù)的場(chǎng)景非常多,尤其是工業(yè)場(chǎng)景中。我這里舉兩個(gè)例子:一個(gè)例子是給數(shù)據(jù)打標(biāo)簽,很多時(shí)候標(biāo)簽足夠大,然而真正打了標(biāo)簽的數(shù)據(jù)很少,這樣的話采用數(shù)據(jù)增強(qiáng)能夠增加很多數(shù)據(jù);另一個(gè)例子是對(duì)話,因?yàn)閷?duì)話也是一個(gè)數(shù)據(jù)稀缺的場(chǎng)景,如果能夠用數(shù)據(jù)增強(qiáng)來(lái)增加數(shù)據(jù),是非常有幫助的。

黃輝:說(shuō)到在 ASR 中做數(shù)據(jù)增強(qiáng),其實(shí)我之前也考慮過(guò)這個(gè)問(wèn)題,比如說(shuō)現(xiàn)在我們的語(yǔ)音合成系統(tǒng)能夠生成大量的偽數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,但是結(jié)果發(fā)現(xiàn)并不可行,因?yàn)橄到y(tǒng)生成的語(yǔ)音非常單調(diào),是不具備人類語(yǔ)音的生物特征的。

如何在數(shù)據(jù)增強(qiáng)這個(gè)課題上找到發(fā)論文的好想法?

劉樹杰:我最后替現(xiàn)場(chǎng)臺(tái)下的同學(xué)問(wèn)一個(gè)問(wèn)題,如果想在數(shù)據(jù)增強(qiáng)這個(gè)課題上做深入研究,大概可以從哪些角度出發(fā)?也就是說(shuō),如果想發(fā)一些這個(gè)主題的論文,有哪些好的想法嗎?

王明軒:其實(shí)我認(rèn)為現(xiàn)在還有很多可以研究的點(diǎn),第一點(diǎn),比如說(shuō)深度學(xué)習(xí)以后,可以嘗試結(jié)合其他模態(tài)進(jìn)行研究,例如可以將數(shù)據(jù)增強(qiáng)技術(shù)應(yīng)用到語(yǔ)音到語(yǔ)音的翻譯任務(wù)中,實(shí)際上現(xiàn)在語(yǔ)音翻譯的數(shù)據(jù)非常少,數(shù)據(jù)增強(qiáng)會(huì)有很大的發(fā)揮空間;第二點(diǎn),我們現(xiàn)在比較關(guān)注文檔翻譯,現(xiàn)在例如 GPT 其實(shí)已經(jīng)能夠做整篇文檔的翻譯,我認(rèn)為可以嘗試去進(jìn)行難度更高的翻譯任務(wù),數(shù)據(jù)增強(qiáng)技術(shù)也能夠得到很好的發(fā)揮。

黃輝:我覺得要發(fā)好論文,首先要多看論文,要看看目前別人在做什么。例如說(shuō)可以從我剛剛提到的三個(gè)層次,來(lái)看 Back Translation 到底做得好不好,我認(rèn)為還是有很多值得研究的點(diǎn)。另外,我認(rèn)為我們現(xiàn)在在很多研究上都還是比較初步的,例如在評(píng)測(cè)中,大家還僅僅停留在覺得哪個(gè)方法好用就用哪個(gè)方法的階段,而并沒有很深入地分析這些方法本身。

陳博興:現(xiàn)在這個(gè)領(lǐng)域的研究人員無(wú)論是國(guó)內(nèi)還是國(guó)外,都實(shí)在太多了,往往大家能夠簡(jiǎn)單地想到的點(diǎn),實(shí)際上已經(jīng)有人做過(guò)了。所以我們要想一些更難、更深的問(wèn)題。比如說(shuō)我現(xiàn)在想到的一個(gè)比較難的問(wèn)題,就是說(shuō)自然語(yǔ)言數(shù)據(jù)其實(shí)是天然分布不均勻的,不管增加多少數(shù)據(jù),總會(huì)存在有的類型的數(shù)據(jù)多、有的類型的數(shù)據(jù)少的情況,而我們訓(xùn)練數(shù)據(jù)的方法是最大似然,它總會(huì)生成數(shù)量最多的那類數(shù)據(jù),那我們是否有辦法來(lái)解決這個(gè)數(shù)據(jù)不平衡的問(wèn)題呢?我認(rèn)為可以嘗試用數(shù)據(jù)增強(qiáng)的方法來(lái)試一試。

陳毅東:我認(rèn)為早期語(yǔ)言學(xué)家比如說(shuō)在字典中總結(jié)的一些規(guī)律性的東西,是可以用來(lái)指導(dǎo)數(shù)據(jù)增強(qiáng)的相關(guān)工作的。

本次會(huì)議的圓桌討論還包含機(jī)器翻譯技術(shù)應(yīng)用探討和機(jī)器翻譯博士生培養(yǎng)探討等議題。會(huì)議還包含特邀報(bào)告、學(xué)術(shù)論文報(bào)告、評(píng)測(cè)技術(shù)報(bào)告等環(huán)節(jié)。更多內(nèi)容請(qǐng)查閱會(huì)議官方網(wǎng)站 https://ccmt2019.jxnu.edu.cn。

雷鋒網(wǎng) AI 科技評(píng)論報(bào)道 雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

關(guān)于數(shù)據(jù)增強(qiáng)在機(jī)器翻譯中的應(yīng)用現(xiàn)狀和前景,劉群、黃輝等專場(chǎng)探討

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)