0
本文作者: 趙晨希 | 2019-03-15 10:47 |
導(dǎo)語:近日,雷鋒網(wǎng)就“搜狗分身”技術(shù)以及升級后的AI合成主播,與搜狗語音技術(shù)交互中心的陳偉進(jìn)行了面對面的交流。
2019年2月19日,搜狗和新華社新媒體中心聯(lián)合推出的全球首個站立式AI合成主播,舉行了升級發(fā)布儀式。新一代的AI合成主播從過去“坐著”播新聞,升級為具有肢體動作的“站立式播報”。AI合成主播的新聞播報方式,實(shí)現(xiàn)了重量級的突破。3月3日全球首位AI合成女主播“新小萌”正式上崗、向世界報道中國“兩會”的盛況。
2018年11月,烏鎮(zhèn)世界互聯(lián)網(wǎng)大會上,以新華社CNC主持人邱浩為原型的AI合成主播首次亮相,一經(jīng)面世就引發(fā)了公眾極為熱烈的討論。這不僅是“搜狗分身”技術(shù)首次應(yīng)用于新聞行業(yè)中,同時也是未來融媒體發(fā)展探索的一個重要方向。
雷鋒網(wǎng)了解到,截止目前,入職新華社的AI合成主播,已生產(chǎn)幾千條新聞報道。參與包括第五屆世界互聯(lián)網(wǎng)大會、首屆進(jìn)博會、2019春運(yùn)、春節(jié)、兩會等若干重要事件的報道,顯然,已經(jīng)成為了國內(nèi)人工智能與傳媒業(yè)大膽融合并付諸規(guī)?;瘧?yīng)用的典型案例。
“搜狗分身”技術(shù)可以實(shí)現(xiàn)機(jī)器逼真的模擬人類說話時的聲音、嘴唇動作和表情,并將三者自然地匹配,創(chuàng)造出人類的AI分身。此次,除了聲音、嘴唇動作、表情等,“搜狗分身”技術(shù)升級了AI合成主播肢體語言的能力,讓AI合成主播從整體形象、動作細(xì)節(jié)、立體感覺方面有了更加逼真的效果。
而“搜狗分身”技術(shù)在新聞行業(yè)中的第一次落地,更為重要的意義,在于解決了新聞播報領(lǐng)域的效率問題。新聞播報受限于場地、時間、資源、主播個人的精力等等問題,因而“人類”主播每天的產(chǎn)出量十分有限。目前,新華社利用搜狗的技術(shù),只要將每天想要播報的新聞以文本形式輸入,便會在幾秒鐘后生成一個完整的視頻,在新聞客戶端APP上線,且中英文不同類型的語種視頻均可支持。
一方面,新聞速度要求較高,采用“搜狗分身”技術(shù),保證了新聞時效性。另一方面,該技術(shù)將主播從日常繁重、單一、沒有技術(shù)含量的播報中,抽身出來。騰出更多的精力、時間錄制訪談類、深度類型的新聞報道節(jié)目中去。
其次,“搜狗分身”技術(shù)早已籌備多年,在搜狗知音大的基礎(chǔ)框架之下,孵化出很多不同的技術(shù),從感知能力到認(rèn)知能力均囊括。搜狗希望圍繞搜狗在AI人工智能戰(zhàn)略自然交互+知識計算,做出更多突破。早在2012年搜狗圍繞感知層面的交互,就做了語音識別相關(guān)研究。
隨著時間的推移以及技術(shù)的進(jìn)步,識別這狀態(tài)逐漸從語音識別到多模態(tài)識別。即語音識別之外,還增加了手寫識別、唇語識別等等不同識別技術(shù)結(jié)合、疊加在一起識別能力。
而搜狗最早公布“分身”技術(shù),可以追溯到2018年7月,搜狗CEO王小川在香港,正式對外宣布該項(xiàng)技術(shù),現(xiàn)場王小川展示了一段結(jié)合唇語合成、語音合成、音視頻聯(lián)合建模與深度學(xué)習(xí)技術(shù),可驅(qū)動機(jī)器生成對應(yīng)的唇語圖像與聲音,進(jìn)而輸出統(tǒng)一的音視頻素材。近日,雷鋒網(wǎng)就“搜狗分身”技術(shù)與搜狗語音技術(shù)交互中心的陳偉進(jìn)行了面對面的交流。
陳偉介紹稱,在語音理解認(rèn)知層面,搜狗語音技術(shù)交互中心主要做機(jī)器翻譯和自然交互的研究工作。在表達(dá)層面,目前更多集中在多模態(tài)表達(dá)的研究?;趶淖R別再到理解、認(rèn)知,再到表達(dá)整個閉環(huán)。當(dāng)然,除了音頻之外還有音視頻的表達(dá)方式。陳偉所在團(tuán)隊有兩條大條線在做語音交互:第一,怎么能夠讓人機(jī)交互更自然;第二,語音翻譯、語音同傳的能力。
陳偉認(rèn)為,未來的發(fā)展方向語音不會是唯一的一種表達(dá),而是如何將其與多模態(tài)信息融合起來。在交互的框架下,引入與語音、同傳等更多的信息,以及語音、圖像等能力相互結(jié)合。陳偉說,“技術(shù)一直在持續(xù)迭代中,目前搜狗具備了在整個分身的技術(shù)方面快速落地的穩(wěn)定能力。不僅僅停留在實(shí)驗(yàn)室的模型階段,而是跟更多行業(yè)內(nèi)不同領(lǐng)域的場景、產(chǎn)品深度結(jié)合。AI合成主播原形的工作性質(zhì)發(fā)生了很多變化,AI分身落地之后確實(shí)改變、影響每個人未來的工作方式和狀態(tài)?!?/p>
陳偉透露,基于搜狗分身技術(shù)的AI合成主播已經(jīng)在新華社平臺上播報了幾千條新聞,并且是零失誤。搜狗分身將于年內(nèi)推出交互能力,后續(xù)搜狗分身會繼續(xù)在教育,法律,醫(yī)療,娛樂等領(lǐng)域紛紛發(fā)力......
陳偉:從目前跟新華社合作來看,證明這是一次非常成功的合作。2018年11月份烏鎮(zhèn)互聯(lián)網(wǎng)大會發(fā)布以來到現(xiàn)在,我們本身的技術(shù)已經(jīng)在國內(nèi)、國外都引起了比較大的轟動。
有些合作,恰好在某一個合適的時間點(diǎn),大家有一個共同的訴求下,把這件事做成了。我們當(dāng)時在做這件事情時,第一想法是把它落地在主播,正好新華社有這方面的需求,于是就產(chǎn)生了后續(xù)的合作。
陳偉:要用云端服務(wù)器。用的自己的,搜狗都有自建機(jī)房。
陳偉:現(xiàn)在包括兩部分,一部分是我們支持公有云的調(diào)動,會有一個公有云。比如有些公司需要用,他們自己沒有服務(wù)器,我們可以提供。第二部分,我們可以支持私有化的部署,在他自己的機(jī)房部署分身整套服務(wù)。這也是為什么說搜狗目前在分身這件事情上是領(lǐng)先的。我們現(xiàn)在提供出去的服務(wù)在資源占用上、實(shí)時性都可以完全達(dá)到要求。我們有好的系統(tǒng)能力支撐了我們整套技術(shù)的快速輸出。
陳偉:目前AI沒有數(shù)據(jù)肯定做不到,從2012年到現(xiàn)在我們基本上已經(jīng)做了七年多的時間了。早期做語音識別的能力,后期有語音合成的能力,再加上我們一直在做唇語識別的研究。差不多從2016年開始做唇語識別,還有一個團(tuán)隊在做圖像研究,基于表情生成的工作,糅合在一起變成今天的分身。AI合成主播走到今天不是花了幾個月突擊出來的,而是數(shù)據(jù)本身的積累。搜狗從2012年到現(xiàn)在,一直在AI持續(xù)投入,產(chǎn)生的結(jié)果。
陳偉:這屬于語音合成領(lǐng)域,其實(shí)語音合成在我們目前面向于口語化的表達(dá)方面,已經(jīng)做得非常好了。2018年,搜狗參加國際語音評測暴風(fēng)雪預(yù)測,在語音評測方面取得國際第一名。從整個能力來看,一直走在行業(yè)最前沿的路徑上。
AI合成主播用到的能力,已經(jīng)是目前國內(nèi)首家基于端到端神經(jīng)聲碼器的先進(jìn)技術(shù),可以讓發(fā)音真實(shí)度大大提升。從我們的展示樣例中可以聽到,講話中的韻律、停頓、中間的語氣詞處理的都是不錯的。這依賴于數(shù)據(jù)的積累,數(shù)據(jù)對于巨頭公司之間的差距不是很明顯,主要看技術(shù)上誰走得更快。
無論評測還是實(shí)際落產(chǎn)品,搜狗在整個合成領(lǐng)域方面在國內(nèi)是領(lǐng)先的。我們希望搜狗“分身”的逼真度跟真人無異。這其中取決于,大家看到的表情、唇語、動作,還有一塊是聽聲音。
陳偉:也有聯(lián)合建模,我們保證的是表情、聲音完全同步。在做AI合成主播時,語音的合成和圖像表情的合成之間需要同步,這就涉及到了聯(lián)合建模。
陳偉:因?yàn)樵缙诩夹g(shù)不成熟,需要用到大量的數(shù)據(jù)。現(xiàn)在錄制一個人,可以放在一天的時間內(nèi),把音頻和視頻全部錄完,同時錄得數(shù)據(jù)也比較少?,F(xiàn)在幾個小時的視頻資料就可以形成一個逼真形象。
數(shù)據(jù)越多,建模越容易。我們能接受的下限是幾個小時,基本是少量的。在語音合成方面,搜狗前段時間發(fā)布了一個小程序叫搜狗知音坊。用戶上傳5到8分鐘的語音,就可以生成他自己定制的音色,成本已經(jīng)很低了。
我們要做一個商業(yè)級的真正商用的系統(tǒng),在數(shù)據(jù)上肯定多多益善。目前國內(nèi)常規(guī)定制一個語音助手或者定制版普通語音合成,各大公司語音合成的數(shù)據(jù)量都在二三十個小時以上?,F(xiàn)在我們能把數(shù)據(jù)量做到穩(wěn)定、可商用,降到一兩個小時左右。
陳偉:早期是通過人工來評價的,逼真與否也是內(nèi)部產(chǎn)品、算法的同事掃一眼,比較主觀?,F(xiàn)在搜狗在做一些指標(biāo), 通過大量的假設(shè)錄制視頻切一小部分做一個測試集,與真人的相關(guān)視頻做對比。壓縮在一個相同的時間維度下面來看,逐幀對比,整個表情、嘴型、姿態(tài)上面的差異度有多大。這件事情也伴隨著整個研發(fā)過程進(jìn)行,指標(biāo)、目標(biāo)一直在變,但方法是逐漸清晰的,即希望與真人對比。
陳偉:這個問題是行業(yè)里大家都會碰到的問題,簡單來講,遇到動作幅度過大的角度問題,比如看不到主播的嘴了,或者鏡頭位置不同只能看到主播的側(cè)面。在這種信息不完全的情況下,形態(tài)怎么更好的生成,表情應(yīng)該怎么做是一個問題。
模型生成出來怎樣更好的結(jié)合一些姿態(tài),結(jié)合一些更自然的微表情,這是后續(xù)必須要做到的事情。隨著大家對我們的期望越來越高,就會關(guān)注主播的微表情。比如,開心時有些眉毛上揚(yáng)或者微抖動,語音合成這方面,在情感和情緒上如何攻克。
目前我們的主播從整個形象來看,其實(shí)是以偏半身為主,后續(xù)能否在全身或者手勢方面做更多的工作。當(dāng)然,繞不開的事情就是永遠(yuǎn)要跟真人對比,某種情況下能否做到比真人更好也是比較難的,大家都在努力地攻克這些問題。
陳偉:我們不希望把它看成一個個體的定制工作,我們認(rèn)為機(jī)器可以學(xué)到真正的表情、唇型。早期我們做唇語識別時候,每個人的唇型都有差異,幾千小時的數(shù)據(jù)放在一起的時候,學(xué)到的效果還是明顯的。反推過來看,目前視頻和語音數(shù)據(jù)放在一起可以共享,我們希望搜狗“分身”能夠逐漸抽象出特征出來。
不只是說從頭到尾做模型和訓(xùn)練,因?yàn)榇罅康暮铣蓴?shù)據(jù)在此基礎(chǔ)上能夠讓機(jī)器學(xué)到通用特征,找到自己的特點(diǎn),遷移到模型上,搜狗“分身”也是基于遷移學(xué)習(xí)做這件事情。
陳偉:本身分身不是純語音的團(tuán)隊,分身有語音、圖像加NLP完整能力。在這件事情上后面加強(qiáng)的確實(shí)是,圖像方面要考慮2D+3D的混合技術(shù),語音基礎(chǔ)上有更多NLP能力,讓他的認(rèn)知能力加強(qiáng)。
陳偉:之前我們一直做搜狗知音,當(dāng)時在做語音交互,搜狗早期也有一些通用的語音助手的產(chǎn)品。2014、2015年以后,一批語音助手都倒下了,根本原因在于沒有清晰定義它的能力邊界。
2015年搜狗知音做了車載場景、可穿戴設(shè)備,逐漸把對話引向了任務(wù)導(dǎo)向的助手。相當(dāng)于認(rèn)知、理解的范圍和空間變小了,可操控的余地變大。我認(rèn)為語音助手可行的應(yīng)用場景在于垂直領(lǐng)域?,F(xiàn)階段,人工智能一定處于初級階段,走到通用人工智能、強(qiáng)人工智能還需要很多年,這個過程中不妨礙把這個技術(shù)從不可用變成可用,做到好用的狀態(tài)。
陳偉:AI分身?xiàng)l線在搜狗公司就是做自然交互和知識計算,在整個市場做完整的能力。怎么讓人機(jī)交互更自然,機(jī)器需要有一個形象的,怎樣讓機(jī)器具備一個新的形象。后期怎樣做出逼真度跟真人沒有差別的形象出來。基于這樣的考慮,我們在整個交互鏈條上,把語音合成變成多模態(tài)的合成,主要還是在搜狗的主線上去完成。
陳偉:目前沒有。比如,國外很火的Deepfake(深度換臉),其實(shí)是一種換臉的方式。純文本來驅(qū)動的技術(shù),驅(qū)動文本生成視頻的方式,在國際上,只有搜狗一家在做。
陳偉:我覺得包括兩方面,第一,技術(shù)的領(lǐng)先性以及實(shí)際效果,當(dāng)時我們拿這個效果,跟新華社談時,他看到的已經(jīng)是一個距離落地很近的狀態(tài)了。第二,我們具備把這個技術(shù)快速復(fù)制,也就是目前分身的流水線已經(jīng)建立好了。
而現(xiàn)在其他公司在這件事情上的效果跟搜狗有差距,明顯差距在于他們還停留在實(shí)驗(yàn)室研究的狀態(tài)。想要把它真正地推動到市場上,快速的在確定的時間內(nèi)生產(chǎn)出針對不同行業(yè)的分身模型是比較困難的。這兩年,搜狗在這件事情上占有先機(jī)。
陳偉:搜狗在電影后期做過充分的調(diào)研,電影后期對3D依賴是很強(qiáng)的。特別是,好萊塢有兩種方式。一種方式,是通過美工畫3D形象,做很多關(guān)鍵點(diǎn),讓人表演驅(qū)動模型產(chǎn)生動作。另外一個,比較前沿的技術(shù)是通過人臉掃描建模重建一個模型。
美工畫出來的形象定制成本很高,但精度相應(yīng)較高。3D成本降下來,但精度要低一些。后續(xù)分身的能力,一塊是形象,另外一塊就是怎么能夠讓圖像的數(shù)據(jù)或者音頻的數(shù)據(jù),把分身的模型驅(qū)動出來。這是我們核心的領(lǐng)域。我們也在考慮是否可以跟后期的公司,以及電影建模公司合作,減輕他們表演的成本,把這個模型驅(qū)動起來,這是我們目前正在考慮的事情。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。