IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會共同主席，京東“深耕”多模態(tài)技術(shù)獲最佳獎項(xiàng) | ACM MM 2021

本文作者：我在思考中

2021-11-08 15:52

導(dǎo)語：多模態(tài)技術(shù)是未來人工智能應(yīng)用發(fā)展的方向。

編輯 | 維克多

日前，第29屆ACM國際多媒體頂級會議（ACM International Conference on Multimedia, 簡稱ACM Multimedia）已于10月20日至24日在成都舉辦，京東探索研究院憑借跨模態(tài)分析技術(shù)、多模態(tài)交互數(shù)字人技術(shù)分別斬獲最佳開源項(xiàng)目獎及最佳演示獎（Demo）。會上，IEEE Fellow、京東集團(tuán)副總裁梅濤當(dāng)選ACM Multimedia 2023大會共同主席（General Co-Chair）。

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會共同主席，京東“深耕”多模態(tài)技術(shù)獲最佳獎項(xiàng) | ACM MM 2021

最佳Demo獎：ViDA-MAN: Visual Dialog with Digital Humans

貢獻(xiàn)：展示了一個完整的多模態(tài)數(shù)字人系統(tǒng)，包含語音模塊、對話模塊、視覺模塊、驅(qū)動模塊以及流模塊等。

最佳開源獎：X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics

貢獻(xiàn)：跨模態(tài)分析的多功能和高性能的代碼庫，統(tǒng)一了最先進(jìn)的視覺語言技術(shù)中的全面的高質(zhì)量模塊。

關(guān)于X-modaler和ViDA-Man

過去十年多媒體領(lǐng)域視覺和語言之間的跨模態(tài)分析出現(xiàn)了穩(wěn)定創(chuàng)新和突破的勢頭。然而，X-modaler出現(xiàn)之前，還沒有一個開源的代碼庫來支持以統(tǒng)一和模塊化的方式訓(xùn)練和部署眾多的跨模態(tài)分析的神經(jīng)網(wǎng)絡(luò)模型。京東探索研究院AI團(tuán)隊(duì)模態(tài)視覺分析代碼庫X-modaler是業(yè)界首個模塊化、標(biāo)準(zhǔn)化的跨模態(tài)視覺分析代碼庫，涵蓋了視覺語言領(lǐng)域各種前沿技術(shù)，并支持各種多模態(tài)任務(wù)。它可以輕松復(fù)現(xiàn)視覺語言領(lǐng)域目前主流的技術(shù)，促進(jìn)學(xué)術(shù)界在視覺語言領(lǐng)域的發(fā)展。同時也便于工業(yè)界集成跨模態(tài)視覺分析的模塊，推動技術(shù)進(jìn)步。

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會共同主席，京東“深耕”多模態(tài)技術(shù)獲最佳獎項(xiàng) | ACM MM 2021

京東探索研究院跨模態(tài)視覺分析代碼庫X-modaler

系統(tǒng)化地集成了跨模態(tài)分析各大任務(wù)中最常用七大模塊（如編碼器模塊、跨模態(tài)交互模塊以及解碼器模塊等），每一個模塊也包含了各種前沿技術(shù)算法，例如跨模態(tài)交互模塊可以選擇傳統(tǒng)的Attention、Top-Down Attention、Meshed Memory Attention以及最新的X-Linear Attention。具體示意如下圖：

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會共同主席，京東“深耕”多模態(tài)技術(shù)獲最佳獎項(xiàng) | ACM MM 2021

基于這七大模塊，X-modaler就可以輕松支持各種多模態(tài)任務(wù)，如image/video captioning、vision-language pre-training、VQA、VCR、cross-modal retrieval，同時也能很好地復(fù)現(xiàn)每個多模態(tài)任務(wù)中的前沿技術(shù)，例如在image captioning的任務(wù)中X-modaler集成了京東AI團(tuán)隊(duì)從ICCV17的LSTM-A、ECCV18的GCN-LSTM、再到CVPR20的X-LAN。目前代碼庫支持的算法如下圖，后續(xù)將不斷加入更多最新技術(shù)的實(shí)現(xiàn)，整個代碼庫包括使用文檔以及預(yù)訓(xùn)練模型均已開源（https://github.com/YehLi/xmodaler）。

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會共同主席，京東“深耕”多模態(tài)技術(shù)獲最佳獎項(xiàng) | ACM MM 2021

在傳統(tǒng)的AI認(rèn)知中，視覺領(lǐng)域、語音領(lǐng)域、自然語言領(lǐng)域等領(lǐng)域之前是獨(dú)立演進(jìn)的技術(shù)和應(yīng)用，可以認(rèn)為是單模態(tài)技術(shù)，而人是一個看、聽、說多模態(tài)共同工作的智能體，所以多模態(tài)技術(shù)是未來人工智能應(yīng)用發(fā)展的方向。

京東探索研究院多模態(tài)交互數(shù)字人技術(shù)ViDA-Man致力于打造具備多感官交互能力的人機(jī)交互系統(tǒng)，深入多模態(tài)交互技術(shù)研究，專注于人機(jī)交互的消費(fèi)科技產(chǎn)品打造?；谠摷夹g(shù)開發(fā)的多模態(tài)交互數(shù)字人形象引擎，能夠提供快速的形象定制能力，從外觀的數(shù)字化逐漸深入到行為的交互化、情緒的智能化。

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會共同主席，京東“深耕”多模態(tài)技術(shù)獲最佳獎項(xiàng) | ACM MM 2021

ViDA-Man致力于打造具備多感官交互能力的人機(jī)交互系統(tǒng)，深入多模態(tài)交互技術(shù)研究，專注于人機(jī)交互的消費(fèi)科技產(chǎn)品打造。基于現(xiàn)有的人機(jī)對話技術(shù)，創(chuàng)新性研究類人風(fēng)格的虛擬形象生成技術(shù)，深度融合計(jì)算機(jī)視覺、自然語言與語音等多項(xiàng)AI技術(shù)，結(jié)合泛文娛和智能客服場景，提供真人虛擬形象的新型擬人式交互新體驗(yàn)（項(xiàng)目主頁：https://ascust.github.io/vidaman/）。

獲獎?wù)撐恼故玖艘粋€完整的多模態(tài)數(shù)字人系統(tǒng)，包含語音模塊、對話模塊、視覺模塊、驅(qū)動模塊以及流模塊等。先進(jìn)的ASR技術(shù)與基于多音色融合的TTS技術(shù)使數(shù)字人具備了出色聽以及說的能力；基于多技能、多回合的對話系統(tǒng)使數(shù)字人具備了多樣性的應(yīng)答能力。基于3D重構(gòu)技術(shù)以及神經(jīng)渲染技術(shù)的視覺模塊使數(shù)字人具備了逼真的外表以及自然的動作。同時流式服務(wù)模塊將音視頻整合，讓系統(tǒng)具備低延遲的實(shí)時交互能力。各模塊并非獨(dú)立運(yùn)作，而是有機(jī)整合在一起，使得各模態(tài)數(shù)據(jù)真正實(shí)現(xiàn)融合。

京東為什么“看中”多模態(tài)技術(shù)

數(shù)字浪潮的推動讓人工智能技術(shù)已經(jīng)實(shí)現(xiàn)從不可用到可用，AI產(chǎn)品化時期，諸如智能語音識別技術(shù)、智能圖片處理技術(shù)、基于用戶興趣的算法引擎推薦、智能審核技術(shù)、AR/VR技術(shù)、5G技術(shù)等成為了AI落地的抓手，掀起了科技創(chuàng)新的新浪潮。梅濤表示，獲獎技術(shù)早已服務(wù)于京東云打造的虛擬數(shù)字人、拍照購、搭配購等多個產(chǎn)品，并開始在產(chǎn)業(yè)化、商業(yè)化項(xiàng)目中廣泛應(yīng)用。

例如，這些技術(shù)已大規(guī)模應(yīng)用于正在如火如荼展開的京東11.11。如，基于計(jì)算機(jī)視覺以圖搜圖的搜索應(yīng)用，輔助以語音對話交互技術(shù)的“拍照購”和“搭配購”功能已在剛剛拉開帷幕的京東11.11中大放異彩，通過拍照或截圖方式，直接匹配搭配好的時尚單品，打造“一站加購”、“一鍵買齊”的購物新體驗(yàn)，幫助商家強(qiáng)種草、高轉(zhuǎn)化。

今年京東11.11期間，針對商品營銷內(nèi)容推出的智能寫作服務(wù)“達(dá)人寫作”，形成一篇百余字商品文案僅需300毫秒，5分鐘可以創(chuàng)作出1000篇文案，覆蓋近3000個商品品類，累計(jì)生成3,000萬AI內(nèi)容，相比于人工撰寫內(nèi)容點(diǎn)擊轉(zhuǎn)化率超過40%，成本降低93.2%。

除京東內(nèi)部應(yīng)用之外，這些獲得國際學(xué)術(shù)界頂尖榮譽(yù)的領(lǐng)先技術(shù)正在通過京東云這個統(tǒng)一平臺輸出對外賦能各行各業(yè)。比如，基于多模態(tài)交互數(shù)字人技術(shù)研發(fā)的“虛擬數(shù)字人”能助力京東云智能客服產(chǎn)品提升智能接待、服務(wù)和虛擬助手的體驗(yàn)。比如，京東云智能客服業(yè)務(wù)與某銀行合作，打造了全國第一個交互式數(shù)字人項(xiàng)目“數(shù)字柜員”，有別于播報式數(shù)字人，“數(shù)字柜員”涉及VTM虛擬坐席交互，利用AI技術(shù)，實(shí)現(xiàn)用虛擬人替代真人柜員辦理業(yè)務(wù)、把控風(fēng)險。

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會共同主席，京東“深耕”多模態(tài)技術(shù)獲最佳獎項(xiàng) | ACM MM 2021

可以看到，京東AI技術(shù)之所以能取得如此優(yōu)異的成績，是其在真實(shí)復(fù)雜場景的有效實(shí)踐和千錘百煉。作為京東集團(tuán)對外技術(shù)輸出的窗口，京東云不僅是政府、企業(yè)、家庭數(shù)字化轉(zhuǎn)型全生命周期合伙人，并基于人工智能、大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)、區(qū)塊鏈、隱私計(jì)算等技術(shù)，通過數(shù)智化全鏈條技術(shù)服務(wù)，助力千行百業(yè)數(shù)字化轉(zhuǎn)型，激發(fā)產(chǎn)業(yè)無限可能。

關(guān)于ACM Multimedia

ACM Multimedia是計(jì)算機(jī)科學(xué)領(lǐng)域中多媒體領(lǐng)域的首要國際會議，1993年以來每年召開一次，已成為多媒體領(lǐng)域頂級盛典，大會致力于推動多媒體的研究和應(yīng)用。

ACM Multimedia 2009 曾在北京舉辦，ACM Multimedia 2021 是該會議第二次在中國舉辦。

參考鏈接：

1. X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics, ACM Multimedia 2021.

2. ViDA-Man: Visual Dialog with Digital Human, ACM Multimedia 2021.

3. Unsupervised Person Image Generation with Semantic Parsing Transformation，CVPR 2019.

4. Unpaired Person Image Generation with Semantic Parsing Transformation, TPAMI 2020.

5. Down to the Last Detail: Virtual Try-on with Fine-grained Details. ACM MM 2020.

6. Boosting Image Captioning with Attributes, ICCV 2017.

7. Exploring Visual Relationship for Image Captioning, ECCV 2018.

8. X-Linear Attention Networks for Image Captioning, CVPR 2020.

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會共同主席，京東“深耕”多模態(tài)技術(shù)獲最佳獎項(xiàng) | ACM MM 2021

雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

我在思考中

運(yùn)營

發(fā)私信

當(dāng)月熱門文章

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會共同主席，京東“深耕”多模態(tài)技術(shù)獲最佳獎項(xiàng) | ACM MM 2021

IEEE Fellow 梅濤當(dāng)選ACM MM 2023大會共同主席，京東“深耕”多模態(tài)技術(shù)獲最佳獎項(xiàng) | ACM MM 2021