丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給新智造
發(fā)送

0

搜狗同傳3.0:引入視覺(jué)能力+知識(shí)圖譜,構(gòu)建語(yǔ)境引擎

本文作者: 新智造 2019-12-25 16:12
導(dǎo)語(yǔ):知識(shí)圖譜配同傳,AI一直在路上。

2019年,距李世石與AlphGO的“人機(jī)大戰(zhàn)”已有三年,似乎沒(méi)有人再懷疑,在“下棋”這件事兒上,人類確實(shí)已經(jīng)輸給了AI,人類與AI下一個(gè)較量會(huì)在哪里?

同傳(同聲傳譯)將很可能是下一個(gè)面臨挑戰(zhàn)的應(yīng)用場(chǎng)景。

12月21日,基于語(yǔ)境引擎的搜狗同傳3.0以多模態(tài)和自主學(xué)習(xí)為核心,加入視覺(jué)和思維能力,這是AI同傳在加入諸如視覺(jué)AI、知識(shí)圖譜等能力后的再度進(jìn)化。

從人到機(jī)器:困于行業(yè)知識(shí)的AI同傳,破局定制化難題

多模態(tài)同傳,顧名思義,聚合多種交互形式實(shí)現(xiàn)同傳的能力。

據(jù)雷鋒網(wǎng)了解,搜狗在多模態(tài)領(lǐng)域的探索和應(yīng)用早已有之,包括此前在AI合成主播上的應(yīng)用,結(jié)合了語(yǔ)音、唇語(yǔ)、表情動(dòng)作等交互形式,最終形成的AI合成主播參與了2019年全國(guó)的兩會(huì)報(bào)道,甚至還走出國(guó)門,與阿布扎比媒體集團(tuán)達(dá)成合作,將推出全球首個(gè)阿拉伯語(yǔ)AI合成主播。

此次搜狗在12月發(fā)布的搜狗同傳3.0同樣在基于基本的語(yǔ)音交互能力時(shí),加入了文字和圖像兩類交互能力,進(jìn)一步將嘉賓ppt內(nèi)演講相關(guān)內(nèi)容,語(yǔ)音識(shí)別準(zhǔn)確率提升了21.7%,翻譯準(zhǔn)確率提升了40.3%。

為什么經(jīng)過(guò)兩代迭代后,搜狗會(huì)在同傳系統(tǒng)中引入圖像識(shí)別的能力?

這要從搜狗此前兩代同傳系統(tǒng),以及此前對(duì)數(shù)千場(chǎng)會(huì)議的同傳支持的痛苦經(jīng)歷上談起。

2016年,搜狗在「第三屆烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)」上發(fā)布了行業(yè)第一個(gè)商用AI同傳產(chǎn)品——搜狗同傳1.0。這是搜狗同傳的第一代產(chǎn)品,同時(shí)也是搜狗進(jìn)入同傳這一領(lǐng)域的第一次商業(yè)嘗試。

“1.0階段我們提供的是通用的同傳能力,在實(shí)際應(yīng)用過(guò)程中遇到的最大的問(wèn)題是:每一位講者在演講時(shí)的背景信息和語(yǔ)義信息不一樣,可能今天我們需要支持醫(yī)療會(huì)議,明天需要支持航空會(huì)議,我們很難獲取這類專業(yè)會(huì)議的‘語(yǔ)義詞’?!?/p>

回看最初的搜狗同傳1.0時(shí),搜狗AI交互技術(shù)部總經(jīng)理陳偉認(rèn)為當(dāng)時(shí)實(shí)際應(yīng)用中遇到最大的問(wèn)題是難以獲取各專業(yè)領(lǐng)域的“語(yǔ)義詞”,這也影響了最初這一產(chǎn)品的識(shí)別及翻譯的準(zhǔn)確度。

如何獲取這些專業(yè)的“語(yǔ)義詞”,以此來(lái)訓(xùn)練專用的模型,改進(jìn)通用的1.0版本?

這是搜狗同傳研發(fā)團(tuán)隊(duì)當(dāng)時(shí)在進(jìn)行版本迭代時(shí)主要考慮的問(wèn)題,也是最終搜狗同傳2.0試圖去解決的問(wèn)題。

這也就有了2018年發(fā)布的搜狗同傳2.0的幾點(diǎn)重要能力的升級(jí):通過(guò)行業(yè)深度定制和專屬模型訓(xùn)練(例如事先上傳演講稿或給出重點(diǎn)詞匯進(jìn)行訓(xùn)練),輸出行業(yè)方案。

“在迭代到2.0版本后,我們一般會(huì)投很多人針對(duì)演講者要講的內(nèi)容做優(yōu)化,但是我們往往很難拿到演講稿,所以只能在網(wǎng)上找與這個(gè)人相關(guān)的背景知識(shí),以前講過(guò)的內(nèi)容,基于此做模型優(yōu)化。”

盡管2.0版本考慮到了專業(yè)化內(nèi)容的優(yōu)化,但是在具體應(yīng)用過(guò)程中,由于難以會(huì)前獲取實(shí)際演講者的演講內(nèi)容,并未能用這些專業(yè)內(nèi)容進(jìn)行定制模型優(yōu)化。

其實(shí)在這樣的升級(jí)迭代過(guò)程中,搜狗同傳的通用能力從2016年的搜狗同傳1.0到2018年搜狗同傳2.0已經(jīng)有了明顯的提升,“但是就通用能力和個(gè)性化能力上,在嘉賓演講的PPT內(nèi)容的識(shí)別和翻譯效果仍有較大提升空間,這是一定存在的?!?/p>

也因此,搜狗仍在繼續(xù)優(yōu)化個(gè)性化能力,也就是搜狗同傳的定制化能力,“我們希望讓機(jī)器自己定制一個(gè)好的語(yǔ)境?!?/p>

這樣的能力最終在搜狗同傳3.0上得以實(shí)現(xiàn)。

搜狗同傳3.0:引入視覺(jué)能力+知識(shí)圖譜,構(gòu)建語(yǔ)境引擎

搜狗同傳3.0:引入視覺(jué)能力、知識(shí)圖譜,構(gòu)建語(yǔ)境引擎

12月21日,基于語(yǔ)境引擎的搜狗同傳3.0以多模態(tài)和自主學(xué)習(xí)為核心,加入視覺(jué)和思維能力,這是AI同傳在加入諸如視覺(jué)AI、知識(shí)圖譜等能力后的再度進(jìn)化。

據(jù)陳偉介紹,搜狗同傳3.0相對(duì)于上一代產(chǎn)品主要有三方面能力的提升:

第一,從感知層面來(lái)看,獲取的信息從此前單模態(tài)信息到現(xiàn)在,引入視覺(jué)能力,得以獲取多模態(tài)信息;

第二,從認(rèn)知層面來(lái)看,通過(guò)OCR識(shí)別或視覺(jué)能力獲取演講者PPT內(nèi)容,在語(yǔ)境引擎的幫助下,提取出這些專業(yè)知識(shí)的核心,通過(guò)知識(shí)圖譜的方式,對(duì)內(nèi)容進(jìn)行進(jìn)一步擴(kuò)展,形成整個(gè)演講者相關(guān)語(yǔ)境信息,并與演講內(nèi)容進(jìn)行關(guān)聯(lián);

第三,我們拿到個(gè)性化信息后,進(jìn)行實(shí)時(shí)語(yǔ)音識(shí)別、機(jī)器翻譯,并生成個(gè)性化、實(shí)時(shí)定制引擎。

在整個(gè)搜狗同傳3.0系統(tǒng)工作過(guò)程中,特別加入視覺(jué)能力,并引入了語(yǔ)境引擎,這也成為解決前文提到的專用性、個(gè)性化同傳需求的關(guān)鍵。

“語(yǔ)境引擎能夠真正做到對(duì)PPT內(nèi)容的理解和推理,”陳偉點(diǎn)出搜狗同傳3.0的核心能力所在。

具體搜狗同傳3.0技術(shù)框圖如下圖所示:

搜狗同傳3.0:引入視覺(jué)能力+知識(shí)圖譜,構(gòu)建語(yǔ)境引擎

從搜狗同傳3.0技術(shù)框圖中可以看到,語(yǔ)境引擎主要由「PPT文本理解」和「搜狗知識(shí)圖譜」兩部分組成。

語(yǔ)境引擎整個(gè)工作過(guò)程具體可以理解為:

在會(huì)議現(xiàn)場(chǎng),通過(guò)OCR(例如播放PPT的筆記本),將演講嘉賓PPT全部?jī)?nèi)容被轉(zhuǎn)換成文字信息,并就此文字信息抽取與作者領(lǐng)域相關(guān)的個(gè)性化內(nèi)容和知識(shí);

基于這些知識(shí),結(jié)合搜狗此前基于搜狗百科構(gòu)建的知識(shí)圖譜再擴(kuò)充一些知識(shí),匯同語(yǔ)音識(shí)別的內(nèi)容為語(yǔ)料訓(xùn)練模型,形成搜狗同傳3.0的識(shí)別翻譯模型。

這其中,搜狗還在同傳系統(tǒng)中加入了識(shí)別翻譯協(xié)同模塊,對(duì)翻譯模型的輸入文本進(jìn)行優(yōu)化,這一模塊的作用在兩次迭代中也從最初、最基本的標(biāo)點(diǎn)斷句,逐漸升級(jí)為擁有標(biāo)點(diǎn)斷句、文本順滑、語(yǔ)義單元三大能力。

在這個(gè)過(guò)程中,搜狗的機(jī)器翻譯模塊也從1.0系統(tǒng)的RNN模型、2.0系統(tǒng)的Transformer模型,升級(jí)為3.0多模態(tài)翻譯系統(tǒng),3.0系統(tǒng)是在Transformer模型基礎(chǔ)上,將搜狗百科知識(shí)圖譜和翻譯歷史融合到翻譯系統(tǒng)中,并實(shí)現(xiàn)了流式解碼。

據(jù)搜狗官方公布信息來(lái)看,通過(guò)構(gòu)建語(yǔ)境引擎升級(jí)后的搜狗同傳3.0系統(tǒng)的實(shí)測(cè)數(shù)據(jù)如下圖所示:

搜狗同傳3.0:引入視覺(jué)能力+知識(shí)圖譜,構(gòu)建語(yǔ)境引擎

這樣現(xiàn)場(chǎng)識(shí)別PPT內(nèi)容,結(jié)合搜狗百度百科知識(shí)圖譜,構(gòu)建語(yǔ)境引擎,是否對(duì)算力和硬件有特殊要求呢?

陳偉解釋稱,現(xiàn)場(chǎng)做PPT內(nèi)容識(shí)別的時(shí)候可以直接通過(guò)截屏(本機(jī)播放PPT)或筆記本電腦上的攝像頭來(lái)完成,語(yǔ)音訓(xùn)練用英偉達(dá)常規(guī)的P40或V100進(jìn)行訓(xùn)練,訓(xùn)練推理方面沒(méi)有額外增加負(fù)擔(dān)。

AI同傳尚難取代人類同傳,多模態(tài)成趨勢(shì)

引入視覺(jué)能力、加入知識(shí)圖譜后的搜狗同傳3.0,能夠完全取代人類同傳嗎?

據(jù)搜狗官方在發(fā)布會(huì)上公布的信息顯示:

在實(shí)際測(cè)評(píng)中,搜狗同傳3.0的評(píng)測(cè)得分為3.82分,人工同傳的評(píng)測(cè)得分為4.08分。

搜狗同傳3.0:引入視覺(jué)能力+知識(shí)圖譜,構(gòu)建語(yǔ)境引擎

顯然,就目前而言,AI同傳還無(wú)法完全取代人類同傳。

就此,陳偉也指出,

機(jī)器的感知能力越來(lái)越強(qiáng),因?yàn)闄C(jī)器在持續(xù)學(xué)習(xí)( 每天在搜狗輸入法上的語(yǔ)音識(shí)別總次數(shù)在8億次以上)。但是機(jī)器與人類最大的差距在翻譯上。就翻譯的“信、達(dá)、雅”來(lái)看,機(jī)器差不多可以實(shí)現(xiàn)“信”,在部分場(chǎng)景能夠?qū)崿F(xiàn)“達(dá)”,但是人可以做到“雅”。

就翻譯而言,AI同傳面臨著直譯的問(wèn)題,例如,講一個(gè)笑話,能不能get到講者的意思并把它翻譯出來(lái),講到一個(gè)諺語(yǔ)是否能夠理解,人與機(jī)器最大的差距還是在語(yǔ)言理解能力上。所以搜狗一直在做語(yǔ)言AI,要把我們的重心回歸到語(yǔ)言這件事兒本身上來(lái)。

回歸到語(yǔ)言本身時(shí),各類傳感器越來(lái)越多,設(shè)備能夠收集到的數(shù)據(jù)及數(shù)據(jù)種類越來(lái)越多,亦即越來(lái)越多的多模態(tài)數(shù)據(jù)逐漸可以獲得,當(dāng)有了多模態(tài)數(shù)據(jù)后,相關(guān)模型和算法也逐漸開始受到業(yè)界所關(guān)注。

“但是大家一開始還是把多模態(tài)這件事想得太簡(jiǎn)單了,多模態(tài)的實(shí)現(xiàn)過(guò)程不是簡(jiǎn)單把模態(tài)融合在一起,從我們這些年在上面的認(rèn)知來(lái)看,是一個(gè)蠻復(fù)雜的過(guò)程。”

當(dāng)提到搜狗在多模態(tài)語(yǔ)音方面的技術(shù)發(fā)展,陳偉表示:

“我們是第一個(gè)在技術(shù)上主張多模態(tài)的公司,此次搜狗同傳3.0也是從語(yǔ)音跨到了多模態(tài),在這種多模態(tài)下將我們對(duì)于知識(shí)的理解、對(duì)語(yǔ)音的理解放進(jìn)去,我們的同傳就也開始具備一定的認(rèn)知能力?!?/p>

“我們公司的終極目標(biāo)是走向做VPA,即一個(gè)軟件形態(tài)的AI助理,可能以硬件為載體,也可能放在搜狗輸入法、搜狗的搜索引擎上。搜狗VPA的形態(tài),是一個(gè)任務(wù)導(dǎo)向,中間會(huì)看到以對(duì)話為主的形象。同傳這個(gè)場(chǎng)景下,我認(rèn)為搜狗同傳就是一種形態(tài)的VPA,是具備了同傳能力的VPA,它可以與人做同傳交互?!?span style="color: #FFFFFF;">雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)