16問搜狗陳偉：搜狗逼真AI合成主播背后的“熱”技術

本文作者：趙晨希

2019-03-15 10:47

導語：近日，雷鋒網就“搜狗分身”技術以及進化后的AI合成主持人，與搜狗語音技術交互中心的陳偉進行了面對面的交流。

導語：近日，雷鋒網就“搜狗分身”技術以及升級后的AI合成主播，與搜狗語音技術交互中心的陳偉進行了面對面的交流。

2019年2月19日，搜狗和新華社新媒體中心聯合推出的全球首個站立式AI合成主播，舉行了升級發(fā)布儀式。新一代的AI合成主播從過去“坐著”播新聞，升級為具有肢體動作的“站立式播報”。AI合成主播的新聞播報方式，實現了重量級的突破。3月3日全球首位AI合成女主播“新小萌”正式上崗、向世界報道中國“兩會”的盛況。

2018年11月，烏鎮(zhèn)世界互聯網大會上，以新華社CNC主持人邱浩為原型的AI合成主播首次亮相，一經面世就引發(fā)了公眾極為熱烈的討論。這不僅是“搜狗分身”技術首次應用于新聞行業(yè)中，同時也是未來融媒體發(fā)展探索的一個重要方向。

16問搜狗陳偉：搜狗逼真AI合成主播背后的“熱”技術

雷鋒網了解到，截止目前，入職新華社的AI合成主播，已生產幾千條新聞報道。參與包括第五屆世界互聯網大會、首屆進博會、2019春運、春節(jié)、兩會等若干重要事件的報道，顯然，已經成為了國內人工智能與傳媒業(yè)大膽融合并付諸規(guī)?；瘧玫牡湫桶咐?。

“搜狗分身”技術可以實現機器逼真的模擬人類說話時的聲音、嘴唇動作和表情，并將三者自然地匹配，創(chuàng)造出人類的AI分身。此次，除了聲音、嘴唇動作、表情等，“搜狗分身”技術升級了AI合成主播肢體語言的能力，讓AI合成主播從整體形象、動作細節(jié)、立體感覺方面有了更加逼真的效果。

而“搜狗分身”技術在新聞行業(yè)中的第一次落地，更為重要的意義，在于解決了新聞播報領域的效率問題。新聞播報受限于場地、時間、資源、主播個人的精力等等問題，因而“人類”主播每天的產出量十分有限。目前，新華社利用搜狗的技術，只要將每天想要播報的新聞以文本形式輸入，便會在幾秒鐘后生成一個完整的視頻，在新聞客戶端APP上線，且中英文不同類型的語種視頻均可支持。

一方面，新聞速度要求較高，采用“搜狗分身”技術，保證了新聞時效性。另一方面，該技術將主播從日常繁重、單一、沒有技術含量的播報中，抽身出來。騰出更多的精力、時間錄制訪談類、深度類型的新聞報道節(jié)目中去。

其次，“搜狗分身”技術早已籌備多年，在搜狗知音大的基礎框架之下，孵化出很多不同的技術，從感知能力到認知能力均囊括。搜狗希望圍繞搜狗在AI人工智能戰(zhàn)略自然交互+知識計算，做出更多突破。早在2012年搜狗圍繞感知層面的交互，就做了語音識別相關研究。

隨著時間的推移以及技術的進步，識別這狀態(tài)逐漸從語音識別到多模態(tài)識別。即語音識別之外，還增加了手寫識別、唇語識別等等不同識別技術結合、疊加在一起識別能力。

而搜狗最早公布“分身”技術，可以追溯到2018年7月，搜狗CEO王小川在香港，正式對外宣布該項技術，現場王小川展示了一段結合唇語合成、語音合成、音視頻聯合建模與深度學習技術，可驅動機器生成對應的唇語圖像與聲音，進而輸出統一的音視頻素材。近日，雷鋒網就“搜狗分身”技術與搜狗語音技術交互中心的陳偉進行了面對面的交流。

16問搜狗陳偉：搜狗逼真AI合成主播背后的“熱”技術

陳偉介紹稱，在語音理解認知層面，搜狗語音技術交互中心主要做機器翻譯和自然交互的研究工作。在表達層面，目前更多集中在多模態(tài)表達的研究?；趶淖R別再到理解、認知，再到表達整個閉環(huán)。當然，除了音頻之外還有音視頻的表達方式。陳偉所在團隊有兩條大條線在做語音交互：第一，怎么能夠讓人機交互更自然；第二，語音翻譯、語音同傳的能力。

陳偉認為，未來的發(fā)展方向語音不會是唯一的一種表達，而是如何將其與多模態(tài)信息融合起來。在交互的框架下，引入與語音、同傳等更多的信息，以及語音、圖像等能力相互結合。陳偉說，“技術一直在持續(xù)迭代中，目前搜狗具備了在整個分身的技術方面快速落地的穩(wěn)定能力。不僅僅停留在實驗室的模型階段，而是跟更多行業(yè)內不同領域的場景、產品深度結合。AI合成主播原形的工作性質發(fā)生了很多變化，AI分身落地之后確實改變、影響每個人未來的工作方式和狀態(tài)?！?/p>

陳偉透露，基于搜狗分身技術的AI合成主播已經在新華社平臺上播報了幾千條新聞，并且是零失誤。搜狗分身將于年內推出交互能力，后續(xù)搜狗分身會繼續(xù)在教育，法律，醫(yī)療，娛樂等領域紛紛發(fā)力......

以下為雷鋒網與搜狗語音技術交互中心陳偉的交流實錄：

關于合作背景與技術細節(jié)

提問：現在媒體轉型大潮下，傳統媒體都在轉型為融媒體。搜狗當初怎么想到和新華社合作，合作背后的考量是什么？

陳偉：從目前跟新華社合作來看，證明這是一次非常成功的合作。2018年11月份烏鎮(zhèn)互聯網大會發(fā)布以來到現在，我們本身的技術已經在國內、國外都引起了比較大的轟動。

有些合作，恰好在某一個合適的時間點，大家有一個共同的訴求下，把這件事做成了。我們當時在做這件事情時，第一想法是把它落地在主播，正好新華社有這方面的需求，于是就產生了后續(xù)的合作。

提問：搜狗用到云端的服務器了嗎？用了哪家的服務器？

陳偉：要用云端服務器。用的自己的，搜狗都有自建機房。

提問：新華社CNC畢竟是新華社一個子部門，對云端數據高并發(fā)要求以及數據處理量并不是特別高。如果想大規(guī)模普及的話，比如在CCTV大規(guī)模應用的話，對云端數據處理量要求會非常高，搜狗在云端方面有相關部署嗎？

陳偉：現在包括兩部分，一部分是我們支持公有云的調動，會有一個公有云。比如有些公司需要用，他們自己沒有服務器，我們可以提供。第二部分，我們可以支持私有化的部署，在他自己的機房部署分身整套服務。這也是為什么說搜狗目前在分身這件事情上是領先的。我們現在提供出去的服務在資源占用上、實時性都可以完全達到要求。我們有好的系統能力支撐了我們整套技術的快速輸出。

提問：整個分身涉及到大量的語言數據NLP處理，通過怎樣的方式獲得？

陳偉：目前AI沒有數據肯定做不到，從2012年到現在我們基本上已經做了七年多的時間了。早期做語音識別的能力，后期有語音合成的能力，再加上我們一直在做唇語識別的研究。差不多從2016年開始做唇語識別，還有一個團隊在做圖像研究，基于表情生成的工作，糅合在一起變成今天的分身。AI合成主播走到今天不是花了幾個月突擊出來的，而是數據本身的積累。搜狗從2012年到現在，一直在AI持續(xù)投入，產生的結果。

提問：現在AI合成主播在“工作”時，換氣、倒氣、同音詞、停頓等技術處理方面的進展是怎樣的？

陳偉：這屬于語音合成領域，其實語音合成在我們目前面向于口語化的表達方面，已經做得非常好了。2018年，搜狗參加國際語音評測暴風雪預測，在語音評測方面取得國際第一名。從整個能力來看，一直走在行業(yè)最前沿的路徑上。

AI合成主播用到的能力，已經是目前國內首家基于端到端神經聲碼器的先進技術，可以讓發(fā)音真實度大大提升。從我們的展示樣例中可以聽到，講話中的韻律、停頓、中間的語氣詞處理的都是不錯的。這依賴于數據的積累，數據對于巨頭公司之間的差距不是很明顯，主要看技術上誰走得更快。

無論評測還是實際落產品，搜狗在整個合成領域方面在國內是領先的。我們希望搜狗“分身”的逼真度跟真人無異。這其中取決于，大家看到的表情、唇語、動作，還有一塊是聽聲音。

提問：建模是不是分為圖像建模以及語音建模？

陳偉：也有聯合建模，我們保證的是表情、聲音完全同步。在做AI合成主播時，語音的合成和圖像表情的合成之間需要同步，這就涉及到了聯合建模。

提問：從第一代坐式到站立式的，定制周期會縮短嗎，現在升級版本有什么改善？形成一個比較逼真的形象需要多大的數據量呢？

陳偉：因為早期技術不成熟，需要用到大量的數據?，F在錄制一個人，可以放在一天的時間內，把音頻和視頻全部錄完，同時錄得數據也比較少?，F在幾個小時的視頻資料就可以形成一個逼真形象。

數據越多，建模越容易。我們能接受的下限是幾個小時，基本是少量的。在語音合成方面，搜狗前段時間發(fā)布了一個小程序叫搜狗知音坊。用戶上傳5到8分鐘的語音，就可以生成他自己定制的音色，成本已經很低了。

我們要做一個商業(yè)級的真正商用的系統，在數據上肯定多多益善。目前國內常規(guī)定制一個語音助手或者定制版普通語音合成，各大公司語音合成的數據量都在二三十個小時以上。現在我們能把數據量做到穩(wěn)定、可商用，降到一兩個小時左右。

關于逼真度與模型的建立

提問：如何評判逼真度？評判維度以及標準是怎樣的？

陳偉：早期是通過人工來評價的，逼真與否也是內部產品、算法的同事掃一眼，比較主觀?，F在搜狗在做一些指標，通過大量的假設錄制視頻切一小部分做一個測試集，與真人的相關視頻做對比。壓縮在一個相同的時間維度下面來看，逐幀對比，整個表情、嘴型、姿態(tài)上面的差異度有多大。這件事情也伴隨著整個研發(fā)過程進行，指標、目標一直在變，但方法是逐漸清晰的，即希望與真人對比。

提問：逼真度從哪幾個方面提升與完善？

陳偉：這個問題是行業(yè)里大家都會碰到的問題，簡單來講，遇到動作幅度過大的角度問題，比如看不到主播的嘴了，或者鏡頭位置不同只能看到主播的側面。在這種信息不完全的情況下，形態(tài)怎么更好的生成，表情應該怎么做是一個問題。

模型生成出來怎樣更好的結合一些姿態(tài)，結合一些更自然的微表情，這是后續(xù)必須要做到的事情。隨著大家對我們的期望越來越高，就會關注主播的微表情。比如，開心時有些眉毛上揚或者微抖動，語音合成這方面，在情感和情緒上如何攻克。

目前我們的主播從整個形象來看，其實是以偏半身為主，后續(xù)能否在全身或者手勢方面做更多的工作。當然，繞不開的事情就是永遠要跟真人對比，某種情況下能否做到比真人更好也是比較難的，大家都在努力地攻克這些問題。

提問：模型本身有哪些迭代？

陳偉：我們不希望把它看成一個個體的定制工作，我們認為機器可以學到真正的表情、唇型。早期我們做唇語識別時候，每個人的唇型都有差異，幾千小時的數據放在一起的時候，學到的效果還是明顯的。反推過來看，目前視頻和語音數據放在一起可以共享，我們希望搜狗“分身”能夠逐漸抽象出特征出來。

不只是說從頭到尾做模型和訓練，因為大量的合成數據在此基礎上能夠讓機器學到通用特征，找到自己的特點，遷移到模型上，搜狗“分身”也是基于遷移學習做這件事情。

提問：微表情、微動作之外，接下來的戰(zhàn)略部署，除了語音、圖像識別，在3D人體姿態(tài)模擬方面需要怎樣的投入呢？

陳偉：本身分身不是純語音的團隊，分身有語音、圖像加NLP完整能力。在這件事情上后面加強的確實是，圖像方面要考慮2D+3D的混合技術，語音基礎上有更多NLP能力，讓他的認知能力加強。

提問：目前機器是否具備實現理想的人機交互的能力？

陳偉：之前我們一直做搜狗知音，當時在做語音交互，搜狗早期也有一些通用的語音助手的產品。2014、2015年以后，一批語音助手都倒下了，根本原因在于沒有清晰定義它的能力邊界。

2015年搜狗知音做了車載場景、可穿戴設備，逐漸把對話引向了任務導向的助手。相當于認知、理解的范圍和空間變小了，可操控的余地變大。我認為語音助手可行的應用場景在于垂直領域。現階段，人工智能一定處于初級階段，走到通用人工智能、強人工智能還需要很多年，這個過程中不妨礙把這個技術從不可用變成可用，做到好用的狀態(tài)。

關于AI分身的未來發(fā)展

提問：AI分身在搜狗整個的產品矩陣中處于怎樣的位置？

陳偉：AI分身條線在搜狗公司就是做自然交互和知識計算，在整個市場做完整的能力。怎么讓人機交互更自然，機器需要有一個形象的，怎樣讓機器具備一個新的形象。后期怎樣做出逼真度跟真人沒有差別的形象出來。基于這樣的考慮，我們在整個交互鏈條上，把語音合成變成多模態(tài)的合成，主要還是在搜狗的主線上去完成。

提問：AI分身產品在國外有相似的競對產品嗎？

陳偉：目前沒有。比如，國外很火的Deepfake（深度換臉），其實是一種換臉的方式。純文本來驅動的技術，驅動文本生成視頻的方式，在國際上，只有搜狗一家在做。

提問：目前科大訊飛都、微軟也都在做多模態(tài)，和新華社合作，是搜狗的哪些方面特制吸引到了他們？

陳偉：我覺得包括兩方面，第一，技術的領先性以及實際效果，當時我們拿這個效果，跟新華社談時，他看到的已經是一個距離落地很近的狀態(tài)了。第二，我們具備把這個技術快速復制，也就是目前分身的流水線已經建立好了。

而現在其他公司在這件事情上的效果跟搜狗有差距，明顯差距在于他們還停留在實驗室研究的狀態(tài)。想要把它真正地推動到市場上，快速的在確定的時間內生產出針對不同行業(yè)的分身模型是比較困難的。這兩年，搜狗在這件事情上占有先機。

提問：未來有沒有想過在電影領域、游戲方面做一些推廣或者試水呢？

陳偉：搜狗在電影后期做過充分的調研，電影后期對3D依賴是很強的。特別是，好萊塢有兩種方式。一種方式，是通過美工畫3D形象，做很多關鍵點，讓人表演驅動模型產生動作。另外一個，比較前沿的技術是通過人臉掃描建模重建一個模型。

美工畫出來的形象定制成本很高，但精度相應較高。3D成本降下來，但精度要低一些。后續(xù)分身的能力，一塊是形象，另外一塊就是怎么能夠讓圖像的數據或者音頻的數據，把分身的模型驅動出來。這是我們核心的領域。我們也在考慮是否可以跟后期的公司，以及電影建模公司合作，減輕他們表演的成本，把這個模型驅動起來，這是我們目前正在考慮的事情。

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

4人收藏

趙晨希

編輯

簡單是終極的復雜。WeChat：chenxi252516

發(fā)私信

當月熱門文章

16問搜狗陳偉：搜狗逼真AI合成主播背后的“熱”技術

以下為雷鋒網與搜狗語音技術交互中心陳偉的交流實錄：

關于合作背景與技術細節(jié)

提問：現在媒體轉型大潮下，傳統媒體都在轉型為融媒體。搜狗當初怎么想到和新華社合作，合作背后的考量是什么？

提問：搜狗用到云端的服務器了嗎？用了哪家的服務器？

提問：整個分身涉及到大量的語言數據NLP處理，通過怎樣的方式獲得？

提問：現在AI合成主播在“工作”時，換氣、倒氣、同音詞、停頓等技術處理方面的進展是怎樣的？

提問：建模是不是分為圖像建模以及語音建模？

提問：從第一代坐式到站立式的，定制周期會縮短嗎，現在升級版本有什么改善？形成一個比較逼真的形象需要多大的數據量呢？

關于逼真度與模型的建立

提問：如何評判逼真度？評判維度以及標準是怎樣的？

提問：逼真度從哪幾個方面提升與完善？

提問：模型本身有哪些迭代？

提問：微表情、微動作之外，接下來的戰(zhàn)略部署，除了語音、圖像識別，在3D人體姿態(tài)模擬方面需要怎樣的投入呢？

提問：目前機器是否具備實現理想的人機交互的能力？

關于AI分身的未來發(fā)展

提問：AI分身在搜狗整個的產品矩陣中處于怎樣的位置？

提問：AI分身產品在國外有相似的競對產品嗎？

提問：目前科大訊飛都、微軟也都在做多模態(tài)，和新華社合作，是搜狗的哪些方面特制吸引到了他們？

提問：未來有沒有想過在電影領域、游戲方面做一些推廣或者試水呢？

提問：現在媒體轉型大潮下，傳統媒體都在轉型為融媒體。搜狗當初怎么想到和新華社合作，合作背后的考量是什么？

提問：搜狗用到云端的服務器了嗎？用了哪家的服務器？

提問：整個分身涉及到大量的語言數據NLP處理，通過怎樣的方式獲得？

提問：現在AI合成主播在“工作”時，換氣、倒氣、同音詞、停頓等技術處理方面的進展是怎樣的？

提問：建模是不是分為圖像建模以及語音建模？

提問：從第一代坐式到站立式的，定制周期會縮短嗎，現在升級版本有什么改善？形成一個比較逼真的形象需要多大的數據量呢？

提問：如何評判逼真度？評判維度以及標準是怎樣的？

提問：逼真度從哪幾個方面提升與完善？

提問：模型本身有哪些迭代？

提問：微表情、微動作之外，接下來的戰(zhàn)略部署，除了語音、圖像識別，在3D人體姿態(tài)模擬方面需要怎樣的投入呢？

提問：目前機器是否具備實現理想的人機交互的能力？

提問：AI分身在搜狗整個的產品矩陣中處于怎樣的位置？

提問：AI分身產品在國外有相似的競對產品嗎？

提問：目前科大訊飛都、微軟也都在做多模態(tài)，和新華社合作，是搜狗的哪些方面特制吸引到了他們？

提問：未來有沒有想過在電影領域、游戲方面做一些推廣或者試水呢？