丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給我在思考中
發(fā)送

0

IEEE Fellow 梅濤當選ACM MM 2023大會共同主席,京東“深耕”多模態(tài)技術獲最佳獎項 | ACM MM 2021

本文作者: 我在思考中 2021-11-08 15:52
導語:多模態(tài)技術是未來人工智能應用發(fā)展的方向。

IEEE Fellow 梅濤當選ACM MM 2023大會共同主席,京東“深耕”多模態(tài)技術獲最佳獎項 | ACM MM 2021

編輯 | 維克多

日前,第29屆ACM國際多媒體頂級會議(ACM International Conference on Multimedia, 簡稱ACM Multimedia)已于10月20日至24日在成都舉辦,京東探索研究院憑借跨模態(tài)分析技術、多模態(tài)交互數(shù)字人技術分別斬獲最佳開源項目獎及最佳演示獎(Demo)。會上,IEEE Fellow、京東集團副總裁梅濤當選ACM Multimedia 2023大會共同主席(General Co-Chair)。

IEEE Fellow 梅濤當選ACM MM 2023大會共同主席,京東“深耕”多模態(tài)技術獲最佳獎項 | ACM MM 2021

最佳Demo獎:ViDA-MAN: Visual Dialog with Digital Humans

貢獻:展示了一個完整的多模態(tài)數(shù)字人系統(tǒng),包含語音模塊、對話模塊、視覺模塊、驅(qū)動模塊以及流模塊等。

最佳開源獎:X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics

貢獻:跨模態(tài)分析的多功能和高性能的代碼庫,統(tǒng)一了最先進的視覺語言技術中的全面的高質(zhì)量模塊。



1

關于X-modaler和ViDA-Man

過去十年多媒體領域視覺和語言之間的跨模態(tài)分析出現(xiàn)了穩(wěn)定創(chuàng)新和突破的勢頭。然而,X-modaler出現(xiàn)之前,還沒有一個開源的代碼庫來支持以統(tǒng)一和模塊化的方式訓練和部署眾多的跨模態(tài)分析的神經(jīng)網(wǎng)絡模型。京東探索研究院AI團隊模態(tài)視覺分析代碼庫X-modaler是業(yè)界首個模塊化、標準化的跨模態(tài)視覺分析代碼庫,涵蓋了視覺語言領域各種前沿技術,并支持各種多模態(tài)任務。它可以輕松復現(xiàn)視覺語言領域目前主流的技術,促進學術界在視覺語言領域的發(fā)展。同時也便于工業(yè)界集成跨模態(tài)視覺分析的模塊,推動技術進步。

IEEE Fellow 梅濤當選ACM MM 2023大會共同主席,京東“深耕”多模態(tài)技術獲最佳獎項 | ACM MM 2021

京東探索研究院跨模態(tài)視覺分析代碼庫X-modaler
系統(tǒng)化地集成了跨模態(tài)分析各大任務中最常用七大模塊(如編碼器模塊、跨模態(tài)交互模塊以及解碼器模塊等),每一個模塊也包含了各種前沿技術算法,例如跨模態(tài)交互模塊可以選擇傳統(tǒng)的Attention、Top-Down Attention、Meshed Memory Attention以及最新的X-Linear Attention。具體示意如下圖:

IEEE Fellow 梅濤當選ACM MM 2023大會共同主席,京東“深耕”多模態(tài)技術獲最佳獎項 | ACM MM 2021

基于這七大模塊,X-modaler就可以輕松支持各種多模態(tài)任務,如image/video captioning、vision-language pre-training、VQA、VCR、cross-modal retrieval,同時也能很好地復現(xiàn)每個多模態(tài)任務中的前沿技術,例如在image captioning的任務中X-modaler集成了京東AI團隊從ICCV17的LSTM-A、ECCV18的GCN-LSTM、再到CVPR20的X-LAN。目前代碼庫支持的算法如下圖,后續(xù)將不斷加入更多最新技術的實現(xiàn),整個代碼庫包括使用文檔以及預訓練模型均已開源(https://github.com/YehLi/xmodaler)。

IEEE Fellow 梅濤當選ACM MM 2023大會共同主席,京東“深耕”多模態(tài)技術獲最佳獎項 | ACM MM 2021

在傳統(tǒng)的AI認知中,視覺領域、語音領域、自然語言領域等領域之前是獨立演進的技術和應用,可以認為是單模態(tài)技術,而人是一個看、聽、說多模態(tài)共同工作的智能體,所以多模態(tài)技術是未來人工智能應用發(fā)展的方向。

京東探索研究院多模態(tài)交互數(shù)字人技術ViDA-Man致力于打造具備多感官交互能力的人機交互系統(tǒng),深入多模態(tài)交互技術研究,專注于人機交互的消費科技產(chǎn)品打造?;谠摷夹g開發(fā)的多模態(tài)交互數(shù)字人形象引擎,能夠提供快速的形象定制能力,從外觀的數(shù)字化逐漸深入到行為的交互化、情緒的智能化。

IEEE Fellow 梅濤當選ACM MM 2023大會共同主席,京東“深耕”多模態(tài)技術獲最佳獎項 | ACM MM 2021

ViDA-Man致力于打造具備多感官交互能力的人機交互系統(tǒng),深入多模態(tài)交互技術研究,專注于人機交互的消費科技產(chǎn)品打造。基于現(xiàn)有的人機對話技術,創(chuàng)新性研究類人風格的虛擬形象生成技術,深度融合計算機視覺、自然語言與語音等多項AI技術,結合泛文娛和智能客服場景,提供真人虛擬形象的新型擬人式交互新體驗(項目主頁:https://ascust.github.io/vidaman/)。

獲獎論文展示了一個完整的多模態(tài)數(shù)字人系統(tǒng),包含語音模塊、對話模塊、視覺模塊、驅(qū)動模塊以及流模塊等。先進的ASR技術與基于多音色融合的TTS技術使數(shù)字人具備了出色聽以及說的能力;基于多技能、多回合的對話系統(tǒng)使數(shù)字人具備了多樣性的應答能力?;?D重構技術以及神經(jīng)渲染技術的視覺模塊使數(shù)字人具備了逼真的外表以及自然的動作。同時流式服務模塊將音視頻整合,讓系統(tǒng)具備低延遲的實時交互能力。各模塊并非獨立運作,而是有機整合在一起,使得各模態(tài)數(shù)據(jù)真正實現(xiàn)融合。



2

京東為什么“看中”多模態(tài)技術

數(shù)字浪潮的推動讓人工智能技術已經(jīng)實現(xiàn)從不可用到可用,AI產(chǎn)品化時期,諸如智能語音識別技術、智能圖片處理技術、基于用戶興趣的算法引擎推薦、智能審核技術、AR/VR技術、5G技術等成為了AI落地的抓手,掀起了科技創(chuàng)新的新浪潮。梅濤表示,獲獎技術早已服務于京東云打造的虛擬數(shù)字人、拍照購、搭配購等多個產(chǎn)品,并開始在產(chǎn)業(yè)化、商業(yè)化項目中廣泛應用。

例如,這些技術已大規(guī)模應用于正在如火如荼展開的京東11.11。如,基于計算機視覺以圖搜圖的搜索應用,輔助以語音對話交互技術的“拍照購”和“搭配購”功能已在剛剛拉開帷幕的京東11.11中大放異彩,通過拍照或截圖方式,直接匹配搭配好的時尚單品,打造“一站加購”、“一鍵買齊”的購物新體驗,幫助商家強種草、高轉(zhuǎn)化。

今年京東11.11期間,針對商品營銷內(nèi)容推出的智能寫作服務“達人寫作”,形成一篇百余字商品文案僅需300毫秒,5分鐘可以創(chuàng)作出1000篇文案,覆蓋近3000個商品品類,累計生成3,000萬AI內(nèi)容,相比于人工撰寫內(nèi)容點擊轉(zhuǎn)化率超過40%,成本降低93.2%。

除京東內(nèi)部應用之外,這些獲得國際學術界頂尖榮譽的領先技術正在通過京東云這個統(tǒng)一平臺輸出對外賦能各行各業(yè)。比如,基于多模態(tài)交互數(shù)字人技術研發(fā)的“虛擬數(shù)字人”能助力京東云智能客服產(chǎn)品提升智能接待、服務和虛擬助手的體驗。比如,京東云智能客服業(yè)務與某銀行合作,打造了全國第一個交互式數(shù)字人項目“數(shù)字柜員”,有別于播報式數(shù)字人,“數(shù)字柜員”涉及VTM虛擬坐席交互,利用AI技術,實現(xiàn)用虛擬人替代真人柜員辦理業(yè)務、把控風險。

IEEE Fellow 梅濤當選ACM MM 2023大會共同主席,京東“深耕”多模態(tài)技術獲最佳獎項 | ACM MM 2021

可以看到,京東AI技術之所以能取得如此優(yōu)異的成績,是其在真實復雜場景的有效實踐和千錘百煉。作為京東集團對外技術輸出的窗口,京東云不僅是政府、企業(yè)、家庭數(shù)字化轉(zhuǎn)型全生命周期合伙人,并基于人工智能、大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)、區(qū)塊鏈、隱私計算等技術,通過數(shù)智化全鏈條技術服務,助力千行百業(yè)數(shù)字化轉(zhuǎn)型,激發(fā)產(chǎn)業(yè)無限可能。



3

關于ACM Multimedia

ACM Multimedia是計算機科學領域中多媒體領域的首要國際會議,1993年以來每年召開一次,已成為多媒體領域頂級盛典,大會致力于推動多媒體的研究和應用。

ACM Multimedia 2009 曾在北京舉辦,ACM Multimedia 2021 是該會議第二次在中國舉辦。

參考鏈接:
1. X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics, ACM Multimedia 2021.
2. ViDA-Man: Visual Dialog with Digital Human, ACM Multimedia 2021.
3. Unsupervised Person Image Generation with Semantic Parsing Transformation,CVPR 2019.
4. Unpaired Person Image Generation with Semantic Parsing Transformation, TPAMI 2020.
5. Down to the Last Detail: Virtual Try-on with Fine-grained Details. ACM MM 2020.
6. Boosting Image Captioning with Attributes, ICCV 2017.
7. Exploring Visual Relationship for Image Captioning, ECCV 2018.
8. X-Linear Attention Networks for Image Captioning, CVPR 2020.

IEEE Fellow 梅濤當選ACM MM 2023大會共同主席,京東“深耕”多模態(tài)技術獲最佳獎項 | ACM MM 2021

雷鋒網(wǎng)


雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

IEEE Fellow 梅濤當選ACM MM 2023大會共同主席,京東“深耕”多模態(tài)技術獲最佳獎項 | ACM MM 2021

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說