丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給我在思考中
發(fā)送

0

北大劉利斌團隊斬獲 SIGGRAPH Asia 2022 最佳論文獎:用語音和文字驅動數(shù)字人打手勢

本文作者: 我在思考中 2022-12-07 10:17
導語:一個由語音和文字組成的新的跨模態(tài)生成系統(tǒng)。
一個由語音和文字組成的新的跨模態(tài)生成系統(tǒng)。

作者 | 黃楠

編輯 | 陳彩嫻

2022 年 12 月 6 日,SIGGRAPH Asia 2022 大會官方公布了最佳論文等多個獎項。其中,最佳論文獎由北京大學劉利斌團隊的論文“Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings”獲得,論文第一作者為北京大學 2020 級研究生敖騰隆。

北大劉利斌團隊斬獲 SIGGRAPH Asia 2022 最佳論文獎:用語音和文字驅動數(shù)字人打手勢
論文鏈接:https://arxiv.org/pdf/2210.01448.pdf

在日常生活中,我們的語言行為時常會伴隨著一些非語言的動作進行:在公開演講時使用手勢讓內容更有感染力,一個突然降臨的好消息令人不由自主地鼓掌,陷入沉思時的來回走動和緊握的拳頭......這些非語言的動作像是“調味劑”,有時可以幫助形象化我們口頭所說的一件事物,強化語言所傳遞的態(tài)度,讓人類的表達才會更加生動且高效。

在這項工作中,劉利斌團隊提出了一個新的由語音和文字來驅動3D上半身人體模型進行手勢表演的跨模態(tài)生成系統(tǒng),通過輸入一段時序同步的語音和文字,系統(tǒng)就能自動生成與之對應的上半身手勢。

北大劉利斌團隊斬獲 SIGGRAPH Asia 2022 最佳論文獎:用語音和文字驅動數(shù)字人打手勢

圖 1:系統(tǒng)概覽圖

一段手勢動作由單個手勢單元(gesture unit)組成,其中,每個手勢單元可根據(jù)語調點、例如強調重音等,被劃分為單個手勢階段(gesture phase),每個手勢階段就代表了一小段特定的動作,比如抬手、擺臂等,在語言學中,這些手勢階段通常被稱為手勢詞(gesture lexeme)。由于日常交流中的手勢詞數(shù)目有限,將這些手勢詞進行集合后,即可獲得一個手勢詞典(gesture lexicon)。

特定演講者在講述過程中使用的手勢詞,就是手勢詞典中的子集,每個手勢詞上還會疊加輕微的變動(variation),研究人員通過假設此類表動無法直接由輸入推斷,將其編碼為一些隱變量(latent variable),這些代表輕微變動隱變量的手勢風格編碼(gesture style code)。演講者風格不同,因此手勢風格編碼一般跟演講者的風格相關,會受到演講者的音調等低層次音頻特征影響。

北大劉利斌團隊斬獲 SIGGRAPH Asia 2022 最佳論文獎:用語音和文字驅動數(shù)字人打手勢

圖 2:系統(tǒng)所使用的字符模型

對此,該系統(tǒng)依據(jù)手勢相關的語言學研究理論,從韻律和語義兩個維度出發(fā),對語音文字和手勢之間的關系進行建模,從而保證生成的手勢動作既韻律匹配又具備合理的語義。

基于上述理論,劉利斌團隊梳理了一個層次化結構:需要檢測節(jié)奏點(beat),劃分出手勢詞,每個手勢詞本質上已具備明確含義,由輸入語音的高層次語義特征決定;而基于每個手勢詞的變動,即手勢風格編碼,應該與輸入語音的低層次音頻特征,例如音調、音強等因素相關。

因此在系統(tǒng)中,研究人員首先需要分離出不同層次的音頻特征,由高層次音頻特征決定手勢詞,低層次音頻特征決定手勢風格編碼。當推斷出整段音頻對應的手勢詞和手勢風格編碼序列后,依照檢測出的節(jié)奏,研究團隊會顯式地將上述手勢塊“拼接”起來,確保生成的手勢韻律和諧,同時明確的手勢詞和手勢風格編碼保證了生成手勢的語義正確性。

北大劉利斌團隊斬獲 SIGGRAPH Asia 2022 最佳論文獎:用語音和文字驅動數(shù)字人打手勢

圖 3:第一行為右手高度、第二行為手速、第三行為手半徑的樣式編輯結果,右側圖表顯示編輯輸入(平線)和輸出運動的相應值,箱形圖顯示輸出的統(tǒng)計數(shù)據(jù)

系統(tǒng)由數(shù)據(jù)(Data)模塊、訓練(Training)模塊和推斷(Inference)模塊三個部分組成。

其中, 數(shù)據(jù)模塊的任務是對語音進行預處理,根據(jù)節(jié)拍將語音分割成標準化塊,并從這些塊中提取出語音特征。此次研究中共使用了三個數(shù)據(jù)集,分別是 Trinity 數(shù)據(jù)集、TED 數(shù)據(jù)集、以及為這項工作所收集的中文數(shù)據(jù)集。

訓練模塊會從標準化運動塊中學習手勢詞匯,并訓練生成器合成手勢序列,當中要考慮的條件就包括了手勢詞典、風格代碼以及先前運動塊和相鄰語音塊的特征。隨后的推理模塊中,會使用解釋器將語音特征轉換為手勢詞典和風格代碼,并使用學習生成器來預測未來的手勢。

北大劉利斌團隊斬獲 SIGGRAPH Asia 2022 最佳論文獎:用語音和文字驅動數(shù)字人打手勢

圖 4:借助系統(tǒng)從 Trinity Gesture 數(shù)據(jù)集的四個樣本語音摘錄中合成的手勢的定性結果,在說“好”時會做出一個隱喻的手勢,當在捍衛(wèi)時會做出一個標志性的手勢,遇到 thing 和 selling 等詞會做出節(jié)拍手勢,當說到“我”時會出現(xiàn)指示手勢

為了驗證該研究是否可以實現(xiàn)“高層次音頻特征決定偏語義的手勢詞,低層次音頻特征則影響當前手勢詞內的輕微變動”,劉利斌團隊通過找到一類相似語義的高層次音頻特征,其對應的文本為 many、quite a few、lots of、much、and more 等,就這類高層次音頻特征的每個音頻特征對應生成的手勢序列,并對這些手勢序列編碼到手勢詞典空間進行可視化(圖 4)。

北大劉利斌團隊斬獲 SIGGRAPH Asia 2022 最佳論文獎:用語音和文字驅動數(shù)字人打手勢

圖 5:手勢詞典空間動作特征向量的 t-SNE 可視化結果

可以發(fā)現(xiàn),手勢動作序列僅出現(xiàn)在特定的手勢詞內,當中所出現(xiàn)的手勢詞對應的動作,圖 5(a)中的紅、橙和紫色所對應的骨骼動作),的確為“many、lots of、 etc”的意思表征。與之相對應的是,當對同類的低層次音頻特征進行可視化后,如圖 5(b)可見,屬于該低層次音頻特征類的動作序列不再集中于特定幾類,而分散到整個手勢詞典空間內,由此可以驗證“高層次音頻特征決定偏語義的手勢詞”。

北大劉利斌團隊斬獲 SIGGRAPH Asia 2022 最佳論文獎:用語音和文字驅動數(shù)字人打手勢

圖 6:手勢詞典空間動作特征向量的 t-SNE 可視化結果

當不加入手勢風格編碼 z 時,如圖 6(a)所示,所生成的手勢密集地集中在當前手勢詞的類中心,于真值分布存在較大差距。當加入手勢風格編碼后,如圖 6(c)所示,所生成的手勢跟真值分布接近,這說明手勢風格編碼已成功建模了手勢詞的類內輕微變動。由此可以看到,手勢風格編碼主要由低層次音頻特征推斷得到,從而證明“低層次音頻特征影響當前手勢詞內的輕微變動”。

除了上述結果外,該系統(tǒng)還具備以下幾項特性:

  • 跨語言生成,即使面對數(shù)據(jù)集沒有的語言,也能生成韻律和諧的手勢;長音頻生成,能夠面對較長的輸入音頻序列

  • 手勢風格編輯,通過加入控制信號可以控制生成手勢的風格

  • 無聲狀態(tài)下盡量減少多余的手勢動作

  • 輸入一些特定音樂可魯棒地捕捉其節(jié)奏并隨之“擺動”

北大劉利斌團隊斬獲 SIGGRAPH Asia 2022 最佳論文獎:用語音和文字驅動數(shù)字人打手勢

劉利斌,北京大學人工智能研究院前沿計算研究中心助理教授,2009年本科畢業(yè)于清華大學數(shù)理基礎科學專業(yè),后轉向計算機科學與技術專業(yè),2014年獲得清華大學博士學位,曾在加拿大不列顛哥倫比亞大學及美國迪士尼研究院進行博士后研究,之后加入 DeepMotion Inc. 任首席科學家。劉利斌教授的主要研究方向是計算機圖形學、物理仿真、運動控制以及相關的優(yōu)化控制、機器學習、增強學習等領域,曾多次擔任圖形學主要國際會議如 SIGGRAPH、PacificGraphics、Eurographics 等的論文程序委員。

參考鏈接:
1.https://sa2022.siggraph.org/en/

2.https://github.com/Aubrey-ao/HumanBehaviorAnimation

更多內容,點擊下方關注:

北大劉利斌團隊斬獲 SIGGRAPH Asia 2022 最佳論文獎:用語音和文字驅動數(shù)字人打手勢

未經(jīng)「AI科技評論」授權,嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉載!

公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

北大劉利斌團隊斬獲 SIGGRAPH Asia 2022 最佳論文獎:用語音和文字驅動數(shù)字人打手勢

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說