丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給溥茜
發(fā)送

0

實(shí)測:ChatGPT的翻譯能力怎么樣?

本文作者: 溥茜 2023-02-13 17:55
導(dǎo)語:騰訊 AI Lab發(fā)布的論文稱,ChatGPT 的機(jī)翻能力,在小語種環(huán)境下,表現(xiàn)并不如其他商用翻譯軟件強(qiáng)。

在今天,狂熱追捧ChatGPT,仿佛已經(jīng)成為了一種“政治正確”。

ChatGPT一出,學(xué)界、工業(yè)界無不驚為天人。一位研究機(jī)構(gòu)的資深研究員就對AI科技評論說過:“ChatGPT出來,直接給我們整不會了——生成做的比我們好就不說了,NLP(自然語言處理)能力還比我們強(qiáng)不少?!?/p>

微軟注資百億美元,谷歌則如臨大敵,ChatGPT在科技圈里掀起的巨浪,仍是現(xiàn)在進(jìn)行時(shí)。

但是,ChatGPT并非“萬能鑰匙”——大模型在某些專業(yè)領(lǐng)域的準(zhǔn)確度,仍然無法超越其他垂類產(chǎn)品。近日,騰訊AI Lab 就通過實(shí)驗(yàn)證明,在機(jī)器翻譯領(lǐng)域,ChatGPT在某些情況下,能力弱于其他商業(yè)翻譯產(chǎn)品。

實(shí)測:ChatGPT的翻譯能力怎么樣?論文地址:https://arxiv.org/pdf/2301.08745v1.pdf


1
ChatGPT是個(gè)好翻譯嗎?


騰訊AI Lab的調(diào)查文指出:

首先,在高資源環(huán)境——如歐洲語言上——ChatGPT的表現(xiàn)與商業(yè)翻譯產(chǎn)品(如谷歌翻譯、DeepL Translate)相比具有競爭力,但是,在低資源環(huán)境——如古代語言——明顯落后;

其次,在翻譯的魯棒性上,ChatGPT在生物醫(yī)學(xué)摘要、或Reddit評論方面表現(xiàn)不如商業(yè)翻譯產(chǎn)品,但是在口語方面也許會是一個(gè)很好的翻譯工具。

為了更好地理解ChatGPT的翻譯能力,騰訊AI Lab從以下三個(gè)方面開展實(shí)驗(yàn):

提示詞(Prompt)翻譯:ChatGPT是一個(gè)大型語言模型,在翻譯時(shí)需有提示詞(Prompt)作為引導(dǎo)才能引導(dǎo)系統(tǒng)進(jìn)行翻譯。所以,提示詞的風(fēng)格會影響翻譯輸出的質(zhì)量。例如,在多語言機(jī)器翻譯模型中,如何將兩種語言信息聯(lián)系起來非常重要,這通常是通過附加語言標(biāo)記來解決。

多語言翻譯:ChatGPT是一個(gè)處理各種NLP任務(wù)并涵蓋不同語言的單一模型,可以被視為一個(gè)統(tǒng)一的多語言機(jī)器翻譯模型。因此,ChatGPT在資源差異(如高與低)和語系差異(如歐洲與亞洲)上的表現(xiàn)是該實(shí)驗(yàn)所探討的重點(diǎn)之一。

翻譯魯棒性:ChatGPT是基于GPT-3開發(fā)的模型,GPT-3在涵蓋各種領(lǐng)域的大規(guī)模數(shù)據(jù)集進(jìn)行上訓(xùn)練,因此,在特定領(lǐng)域的表現(xiàn),是這次研究者們的重點(diǎn)之一。

提示詞翻譯

為了設(shè)計(jì)觸發(fā)ChatGPT機(jī)器翻譯能力的提示詞,騰訊AI Lab團(tuán)隊(duì)向ChatGPT提出以下prompt:

提供十個(gè)可以讓你翻譯的簡明提示或模版

并獲得圖1中的結(jié)果:

實(shí)測:ChatGPT的翻譯能力怎么樣?圖1: ChatGPT推薦的10個(gè)可引發(fā)其進(jìn)行機(jī)器翻譯的prompt

生成的提示語看起來很合理,但是都有相似的格式,研究人員將它們總結(jié)成三個(gè)候選prompt(如圖2),其中[SRC] 和 [TGT] 分別代表翻譯的源語言和目標(biāo)語言。另外,研究人員在Tp2中增加了一個(gè)額外命令,要求ChatGPT不要在翻譯的句子上加雙引號(在原始格式中經(jīng)常發(fā)生)。盡管如此,ChatGPT依舊不穩(wěn)定,如會將同一批次的多行句子翻譯成單行。實(shí)測:ChatGPT的翻譯能力怎么樣?

圖2:候選翻譯提示

研究人員將三種不同的候選prompt與Flores-101的測試集在漢譯英任務(wù)中的表現(xiàn)進(jìn)行比較,圖3顯示了ChatGPT和其他三個(gè)翻譯軟件的結(jié)果。雖然ChatGPT提供了相當(dāng)好的翻譯,但它仍然落后于基線至少5.0個(gè)BLEU點(diǎn)。關(guān)于三個(gè)候選prompt,Tp3在所有指標(biāo)方面表現(xiàn)的最好,因此在這篇論文中,研究者默認(rèn)使用Tp3。

實(shí)測:ChatGPT的翻譯能力怎么樣?

圖3:在中譯英翻譯任務(wù)中ChatGPT使用不同提示語的翻譯表現(xiàn)對比

多語言翻譯

騰訊AI Lab選擇了四種語言來評估ChatGPT在多語言翻譯中的能力,包括德語(De)、英語(En)、羅馬尼亞語(Ro)和中文(Zh),這些語言在研究和競賽中都被普遍采用。前三種語言同來自拉丁語系,而后一種則來自中文語系。研究人員測試了任意兩種語言間的翻譯表現(xiàn),共涉及12次翻譯。

資源差異

通過實(shí)驗(yàn)發(fā)現(xiàn),在同語系中不同語言也存在資源差異。在機(jī)器翻譯中,德英互譯通常被認(rèn)為是一個(gè)高資源任務(wù),有超過1000萬條語料。而羅馬尼亞語與英語間互譯語料要少得多。

如圖4所示,ChatGPT在德譯英和英譯德上,與谷歌翻譯和DeepL可以分庭抗禮;而在羅馬尼亞語譯英,和英譯羅馬尼亞語方面,則要明顯落后。具體來說,ChatGPT在英譯羅馬尼亞語上獲得的BLEU分?jǐn)?shù)比谷歌翻譯低了46.4%。

實(shí)測:ChatGPT的翻譯能力怎么樣?

圖4:ChatGPT在多語言翻譯中的表現(xiàn)

研究者認(rèn)為,英語和羅馬尼亞語之間的單一語言數(shù)據(jù)的巨大資源差異,限制了羅馬尼亞語的語言建模能力,這部分解釋了將英語翻譯成羅馬尼亞語表現(xiàn)差的原因。

相反,羅馬尼亞語譯成英語可以受益于強(qiáng)大的英語建模能力,使平行數(shù)據(jù)的資源缺口可以得到一定程度的補(bǔ)償。

語系

同時(shí),研究人員也考慮了語系的影響。

通常認(rèn)為,對于機(jī)器翻譯,不同語系之間的翻譯通常比同一語系間翻譯更難。研究人員發(fā)現(xiàn),德英互譯、漢英互譯,或者德漢互譯在文化和書寫方式上存在差異。

另外可以發(fā)現(xiàn),在這幾種翻譯中,ChatGPT和幾款商業(yè)翻譯軟件間差距較大,研究者認(rèn)為,這是因?yàn)樵谕徽Z系中知識轉(zhuǎn)移比在不同語系間要好,對于既是低資源又來自不同語系的語言來說(如羅馬尼亞語和漢語的互譯),這種差距會進(jìn)一步擴(kuò)大。

由于ChatGPT在一個(gè)模型中處理不同的任務(wù),低資源的翻譯任務(wù)不僅與高資源的翻譯任務(wù)競爭,而且還與其他NLP任務(wù)競爭模型容量,這說明其性能表現(xiàn)欠佳。

翻譯魯棒性

騰訊AI Lab進(jìn)一步評估了ChatGPT在WMT19 Bio和WMT20Rob2和Rob3測試集上的翻譯魯棒性,這些測試集引入了領(lǐng)域偏見和潛在的噪聲數(shù)據(jù)。

例如WMT19 Bio測試集是由Medline摘要組成的,這需要特定領(lǐng)域的知識處理,WMT20Rob2是來自Reddit的評論,可能包含各種錯(cuò)誤,如拼寫錯(cuò)誤、單詞遺漏、插入重復(fù)、語法錯(cuò)誤、破壞性語言,和網(wǎng)絡(luò)俚語等。圖5列出了BLEU分?jǐn)?shù),顯然ChatGPT在WMT19 Bio和WMT20Rob2測試集上的表現(xiàn)不如谷歌翻譯和DeepL Translate。

實(shí)測:ChatGPT的翻譯能力怎么樣?

圖5:ChatGPT在翻譯魯棒性方面的表現(xiàn)

原因可能在于,像谷歌翻譯這樣的商業(yè)翻譯產(chǎn)品往往需要不斷提高其翻譯特定領(lǐng)域(如生物醫(yī)學(xué))或噪音句子的能力,因?yàn)樗鼈兪乾F(xiàn)實(shí)世界的應(yīng)用,需要對分布之外的數(shù)據(jù)有更好地概括性,ChatGPT不太能夠完成這一點(diǎn)。

不過,一個(gè)有趣的發(fā)現(xiàn)是,ChatGPT在包含眾包語音識別語料的WMT20Rob3測試集上大大超過了谷歌翻譯和DeepL Translate。這表明,ChatGPT本質(zhì)上是一個(gè)人工智能對話工具,能夠比商業(yè)翻譯軟件生成更自然的口語(見圖6)。

實(shí)測:ChatGPT的翻譯能力怎么樣?

圖6:來自WMT20魯棒集set3的例子

2
ChatGPT應(yīng)如何揚(yáng)長避短?


從該研究可知,高舉高打的ChatGPT每訓(xùn)練一次就耗費(fèi)大量算力資源,但也不能在全領(lǐng)域盡善盡美。所以,一些人開始思考,是否應(yīng)該“摒棄”大模型思路,轉(zhuǎn)而去做“精耕細(xì)作”的小模型。

騰訊AI Lab在Chat GPT“測評”中提到,羅馬尼亞語與英語互譯,相較德英互譯存在較大差距,原因在于:巨大資源差異,限制了羅馬尼亞語的語言建模能力,也恰恰證明,AI學(xué)習(xí)能力常常受到低資源的掣肘。

但也有資深學(xué)者認(rèn)為,盡管現(xiàn)時(shí)ChatGPT仍存在不少不足之處,但仍然對研究者和創(chuàng)業(yè)者有著不少啟示。以ChatGPT為代表的AI 3.0走的是跟過去 AI 浪潮不一樣的路,即更落地、更接近真實(shí)世界,在工業(yè)應(yīng)用上,更直接,更落地,從學(xué)術(shù)研究到工業(yè)落地的路徑也變得更短、更快。

未來,“helpful, truthful, harmless”的 AI 系統(tǒng)會成為現(xiàn)實(shí)。


雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

實(shí)測:ChatGPT的翻譯能力怎么樣?

分享:
相關(guān)文章

編輯

Hi~
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說