0
本文作者: 汪思穎 | 2018-10-27 21:41 | 專題:CNCC 2018 |
雷鋒網(wǎng) AI 科技評論按,2018 中國計算機大會(CNCC2018)于 10 月 25-27 日在杭州國際博覽中心舉辦,會議由中國計算機學會(CCF)主辦,杭州市蕭山區(qū)人民政府、浙江大學承辦,浙江工業(yè)大學、浙江工商大學、杭州電子科技大學協(xié)辦。今年的大會主題是「大數(shù)據(jù)推動數(shù)字經(jīng)濟(Big Data Drives the Digital Economy)」,CNCC 邀請到近 400 位國內(nèi)外計算機領域知名專家、企業(yè)家到會演講,會議包括 15 個特邀報告、3 個大會論壇,60 個技術(shù)論壇,20 場特色活動。
今天已是大會最后一日,上午精彩的主論壇結(jié)束之后,迎來了下午多場技術(shù)論壇。在「高通量媒體內(nèi)容理解」論壇上,來自學界的兩位嘉賓——中國科學技術(shù)大學張勇東教授、北航計算機學院長江學者特聘教授李波,以及來自業(yè)界的兩位嘉賓——字節(jié)跳動人工智能實驗室總監(jiān)王長虎、快手多媒體內(nèi)容理解部負責人李巖帶來了四場精彩的分享,內(nèi)容涉及到一系列圖像、視頻理解相關(guān)技術(shù)及其應用,還有目前所面臨的一系列挑戰(zhàn)。
論壇伊始,論壇主席、合肥工業(yè)大學計算與信息學院教授洪日昌對高通量媒體進行了介紹,他表示,在大數(shù)據(jù)時代,以圖像、視頻為代表的高通量媒體內(nèi)容數(shù)據(jù)不僅規(guī)模龐大,還具有三個特點:高維度、大流量、高并發(fā)。今天的嘉賓將會針對高通量媒體內(nèi)容,站在學術(shù)和工業(yè)界的角度進行分享。
中國科學技術(shù)大學張勇東教授是第一位上臺演講的嘉賓,他的演講主題為《互聯(lián)網(wǎng)視頻的高效流式計算》。
中國科學技術(shù)大學張勇東教授
大數(shù)據(jù)處理系統(tǒng)可分為批量計算和流式計算,他形象地介紹了這兩種計算并探討了其差別。流式計算是指利用分布式并行化的思想和方法,對海量流式數(shù)據(jù)進行實時處理。批量計算的特點是時效性、持續(xù)性、魯棒性、高發(fā)性。
目前面臨的問題是,視頻網(wǎng)站產(chǎn)生的數(shù)據(jù)非常多,表現(xiàn)出強動態(tài)、大流量、高并發(fā)的特點,傳統(tǒng)的計算方法難以解決現(xiàn)有問題。他講解了視頻流式計算研究框架,主要應用有互聯(lián)網(wǎng)視頻內(nèi)容安全(實時發(fā)現(xiàn)與阻斷視頻流有害內(nèi)容),互聯(lián)網(wǎng)視頻信息服務(視頻流在線轉(zhuǎn)播、檢索等)。
隨后,他剖析了技術(shù)發(fā)展現(xiàn)狀:
流式編解碼計算存在問題。前人研究希望通過算法簡化/動態(tài)調(diào)度解決這一問題,但算法簡化會導致視頻壓縮性能損失大,動態(tài)調(diào)度會導致并行粒度低。
流式相似性計算。傳統(tǒng)方法是基于尺度空間等比固定、數(shù)據(jù)獨立分布的假設,但這存在弊端。通過哈希學習忽略了流式計算的特性。
流式語義計算。存在的問題是視覺多義性和語義多態(tài)性強,視覺語義復雜關(guān)聯(lián)。前人試圖通過全局分類方法解決這一問題。
針對前面的問題,相關(guān)研究如下:
視頻流式編解碼。針對模式?jīng)Q策、運動估計、環(huán)路濾波都提出了新方法。他描述了基于圖優(yōu)化的并行運動估計、基于概率轉(zhuǎn)移預測的并行環(huán)路濾波等,并與傳統(tǒng)方法進行了對比。
視頻流式相似性計算。他談到特征提取、特征融合、特征量化、特征索引、特征度量。在數(shù)據(jù)去相關(guān)性、特征融合上,他談到數(shù)據(jù)去相關(guān)性形式化描述。
視頻流式語義計算。一是稀疏集成學習,二是弱標注的語義深度學習。他詳細介紹了稀疏集成學習的框架圖,實驗情況,弱標注的語義深度學習模型。
演講最后,張勇東教授對視頻流式編解碼、視頻流式相似性計算、視頻流式語義計算、視頻流式計算平臺方面的下一步的工作進行了展望。
第二位演講嘉賓是字節(jié)跳動人工智能實驗室總監(jiān)王長虎博士。開場伊始,他用一段簡短視頻對抖音進行了介紹。他總結(jié)道,抖音里的內(nèi)容非常豐富和精彩,也進一步分析了抖音影響力如此大的三個因素:算法力、運營力、產(chǎn)品力。
字節(jié)跳動人工智能實驗室總監(jiān)王長虎博士
他此次帶來的內(nèi)容是抖音背后一系列的計算機視覺技術(shù),包括 AI Camera 技術(shù)、人臉檢測和標定技術(shù)、人體關(guān)鍵點檢測技術(shù)、分割技術(shù)。他分別分析了抖音在這些技術(shù)上的優(yōu)勢和目前面臨的挑戰(zhàn)。對于人臉檢測和標定技術(shù),他們的優(yōu)勢有關(guān)鍵毫秒級定位,在側(cè)臉、暗光等復雜環(huán)境下算法魯棒,這一技術(shù)的應用場景非常多,例如人臉美化,貼紙、人臉特效,眉形、美瞳、口紅等的在線試妝。
隨后,他談到視頻推薦以及視頻理解。在視頻推薦算法中,如何優(yōu)化打分函數(shù),讓用戶獲得更好的體驗,這是值得研究的重點。視頻理解包括對視頻分類、打標簽等,面臨的挑戰(zhàn)有很多,如投稿量巨大、視頻持續(xù)快速增長、覆蓋范圍廣、產(chǎn)品影響大、算法要求高、問題種類多、樣本極不均衡、問題區(qū)域小,解決方式也有很多,如人機耦合、多重審核機制、定制化模型。
隨后他還提到大規(guī)模視頻分類和標簽,他舉出了一些需要用技術(shù)解決的例子,如篩選出一些無意義視頻、黑屏視頻等。對于視頻中的 OCR 技術(shù),他表示,有些問題很難,需要能精細檢測和分割。
最后,王長虎博士總結(jié),計算機視覺技術(shù)除了在抖音上有廣泛應用,還支撐著今日頭條、火山小視頻、西瓜視頻。他表示,計算機視覺是抖音和今日頭條很多產(chǎn)品的重要基石,希望更多老師和同學加入字節(jié)跳動公司。
快手多媒體內(nèi)容理解部負責人李巖是第三位上臺嘉賓,他的演講內(nèi)容是《多模態(tài)內(nèi)容生成與理解》。在演講中,他為大家介紹了快手是一家怎樣的公司,以及他們?yōu)槭裁匆芯慷嗄B(tài)內(nèi)容生成與理解技術(shù)。
快手多媒體內(nèi)容理解部負責人李巖
「即使你處在偏遠的山村,也有希望通過快手的作品獲得更多粉絲,消除孤獨感,獲得更多的連接?!估顜r如是說道,他舉了幾個典型的快手視頻案例來說明。
快手有海量多模態(tài)數(shù)據(jù),超過 70 億條短視頻數(shù)據(jù),超過 150 億條視頻播放數(shù)據(jù)。他強調(diào),多模態(tài)技術(shù)有兩大應用,一是會改變?nèi)藱C交互方式,二是使得信息分發(fā)更加高效。但現(xiàn)在研究這樣的問題還非常難,存在三大挑戰(zhàn),一是語義鴻溝,二是異構(gòu)鴻溝(數(shù)據(jù)種類比較多),三是數(shù)據(jù)缺失(多模態(tài)數(shù)據(jù)非常難以構(gòu)建)。
他表示,快手也在一直努力,希望大家能更好地記錄,讓每個人成為自己生活的導演,希望記錄的過程能便捷、個性化、有趣、普惠。他如下幾個例子:
自動字幕與智能配音??梢酝ㄟ^語音合成技術(shù)更好地滿足記錄需求,這會使記錄更加便捷和有趣。隨后他也詳述了語音識別和合成技術(shù),也提到目前用得比較多的深度學習技術(shù)。
音樂自動生成技術(shù)。視頻配樂相對來說還比較難。在視頻音樂生成上涉及到非常多的技術(shù),也有一些領域知識,如歌曲結(jié)構(gòu)、歌曲速度、音樂基礎要素,這可能需要研究音樂和計算機視覺的人互相配合。
Animoji。大家可以通過快手直接在安卓手機上體驗,降低了用戶的體驗成本。目前他們的技術(shù)可以敏銳地捕捉到面部表情變化,拉低了硬件門檻。
最后他總結(jié)到,未來會有兩個非常重要的方向:多模態(tài)特征對齊和多模態(tài)特征表示。他表達了如下三點展望:一是多模態(tài)會帶來新的人機交互方式,二是多模態(tài)會帶來新的內(nèi)容形式,三是多模態(tài)急需新的算法和大型數(shù)據(jù)集。
最后一位演講嘉賓是北航計算機學院長江學者特聘教授李波,他的演講主題為《面向公共安全的天空地網(wǎng)大數(shù)據(jù)一體化處理》。
北航計算機學院長江學者特聘教授李波
網(wǎng)絡世界中新型犯罪活動層出不窮,比如電信或網(wǎng)絡詐騙、跨境網(wǎng)絡攻擊等。外國軍機非法侵入我國海域,僅利用航天成像無法獲取目標的全面畫像,可以將天空地網(wǎng)協(xié)同應用,利用互聯(lián)網(wǎng)得到目標的更完整信息。
李波教授提到利用天空網(wǎng)信息結(jié)合挖掘目標完整畫像的案例,也談到遙感圖像與社交媒體融合以及美國在公共安全領域的研究與應用。
隨后,他提出了幾項關(guān)鍵科技問題:
天空地立體感知問題:空間尺度差異大,時效性差異大,視角差異大,分辨率差異大。
網(wǎng)絡內(nèi)容分析問題:網(wǎng)絡形式多樣、使用獨立;網(wǎng)絡內(nèi)容繁雜;用戶行為復雜,全貌模糊;行為軌跡碎片化。
天空地網(wǎng)數(shù)據(jù)綜合應用問題:圖像視頻結(jié)構(gòu)化描述簡單;案件涉及多維度的關(guān)聯(lián)分析,如時空關(guān)聯(lián)、因果關(guān)聯(lián)等。
解決思路如下:
基于時空關(guān)聯(lián)的目標與事件檢測
在地面上,可以利用時空結(jié)合的場景語義分割;還可以通過天空地相互引導,實現(xiàn)立體感知。
面向?qū)嶓w的跨網(wǎng)內(nèi)容關(guān)聯(lián)
這里涉及到基于關(guān)鍵要素的敏感內(nèi)容檢測。在檢測的基礎上,可以進一步基于相似語義和時空關(guān)聯(lián)的知識學習進行知識抽取,隨后基于概念屬性的跨網(wǎng)身份關(guān)聯(lián),實現(xiàn)跨網(wǎng)知識融合。
虛實融合的一體化事件分析
實是指物理世界,虛是指網(wǎng)絡世界??梢陨蓪嶓w-動作元事件模型,結(jié)合警務知識指導的事件分析,進行公共安全事件研判。
李波教授的演講結(jié)束之后迎來精彩的圓桌討論環(huán)節(jié),快手多媒體內(nèi)容理解部負責人李巖、北航計算機學院長江學者特聘教授李波、字節(jié)跳動人工智能實驗室總監(jiān)王長虎、國家互聯(lián)網(wǎng)應急中心張冬明紛紛上臺,展開了更多對高通量媒體內(nèi)容理解的探討,現(xiàn)場觀眾也發(fā)表踴躍提問。隨后,李波教授對今天的論壇做出總結(jié),對在場觀眾表達了感謝。精彩的論壇就此結(jié)束,但對多媒體內(nèi)容的探討還在繼續(xù)。
圖:洪日昌、李巖、李波、王長虎、張冬明(從左至右)
雷鋒網(wǎng) AI 科技評論后續(xù)也將帶來關(guān)于 CNCC 的一系列新聞,敬請關(guān)注。雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章