1
本文作者: 楊曉凡 | 2018-10-28 21:59 | 專題:CNCC 2018 |
雷鋒網(wǎng) AI 科技評(píng)論按:2018 中國(guó)計(jì)算機(jī)大會(huì)(CNCC2018)于 10 月 25-27 日在杭州國(guó)際博覽中心舉辦,會(huì)議由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,杭州市蕭山區(qū)人民政府、浙江大學(xué)承辦,浙江工業(yè)大學(xué)、浙江工商大學(xué)、杭州電子科技大學(xué)協(xié)辦。
今年的大會(huì)主題是「大數(shù)據(jù)推動(dòng)數(shù)字經(jīng)濟(jì)(Big Data Drives the Digital Economy)」,CNCC 邀請(qǐng)到近 400 位國(guó)內(nèi)外計(jì)算機(jī)領(lǐng)域知名專家、企業(yè)家到會(huì)演講。大會(huì)第二日上午,字節(jié)跳動(dòng)副總裁、字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室主任馬維英帶來(lái)題為《人工智能賦能內(nèi)容創(chuàng)作和交流》的報(bào)告。
在報(bào)告中,馬維英回顧了內(nèi)容分發(fā)、內(nèi)容理解和內(nèi)容創(chuàng)作等多個(gè)方面的技術(shù)變革歷程。雖然隨著 IT 技術(shù) 大潮的發(fā)展,這些領(lǐng)域都有自己的變化,但人工智能技術(shù)在這些方面也都有越來(lái)越多的參與,越來(lái)越成為強(qiáng)大、好用的人類的助手。未來(lái),人工智能相關(guān)技術(shù)也將會(huì)成為人與人之間互相聯(lián)系、人與整個(gè)社會(huì)建立聯(lián)系的重要基礎(chǔ)設(shè)施。
雷鋒網(wǎng) AI 科技評(píng)論根據(jù)現(xiàn)場(chǎng)速記整理馬維英的報(bào)告內(nèi)容如下。
馬維英:
大家好,我是字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室的負(fù)責(zé)人馬維英,很榮幸今天能來(lái)到CNCC跟在座各位分享一些我們對(duì)人工智能的思考,人工智能的發(fā)展及應(yīng)用現(xiàn)狀 。
回溯人類歷史的長(zhǎng)河,人與人之間交流、信息的創(chuàng)造和傳播都是人類社會(huì)和人類文明誕生的基礎(chǔ)。而在幾千年之后的當(dāng)下,如何用更智能的方式表達(dá)和傳播文字、圖片、語(yǔ)音、音樂(lè)、視頻,是否還會(huì)誕生前所未見(jiàn)的新的內(nèi)容的形式,我們又如何用人工智能賦予每個(gè)人新的能力,這些都值得我們?nèi)ニ伎己吞剿鳌?/p>
我們可以看到整個(gè)人類的歷史在不同階段使用不同的技術(shù)去傳遞和連接人與信息,有過(guò)多次技術(shù)變革。在早期,人與人之間的溝通是在紙上書寫,中國(guó)人發(fā)明了造紙術(shù)、印刷術(shù)。
到后來(lái)網(wǎng)站、網(wǎng)頁(yè)讓紙張消失,成為了我們的數(shù)字圖書館,我們開始使用搜索引擎,一鍵便可以直達(dá)自己的所需。而到了移動(dòng)互聯(lián)網(wǎng)時(shí)代,紙張消失得愈加明顯,人類可以隨時(shí)隨地用智能手機(jī)接觸他所需要的信息。同時(shí)人與人思想交換也更便捷,人與人之間、作者與讀者之間可以隨時(shí)交流,還能組成社群,大家一起學(xué)習(xí),一起創(chuàng)作。
隨著人工智能技術(shù)的發(fā)展,整個(gè)人類的創(chuàng)作交流將變得越來(lái)越智能——更加個(gè)性化、社交化和無(wú)所不在化。萬(wàn)物互聯(lián)的時(shí)代到來(lái)之后,人類可以隨時(shí)隨地獲取到他們想要的信息。創(chuàng)作的門檻也不斷拓寬,從機(jī)構(gòu)媒體,到自媒體,再到現(xiàn)在每個(gè)人都能夠創(chuàng)作,人類社會(huì)的信息生產(chǎn)和交流到今天進(jìn)入到一個(gè)新的時(shí)代。
人工智能可以根據(jù)大量數(shù)據(jù)樣本進(jìn)行訓(xùn)練學(xué)習(xí),無(wú)論文字、圖片、視頻還是直播,都是AI不斷挖掘的材料。我們預(yù)測(cè)在未來(lái)超級(jí)智能時(shí)代到來(lái)的時(shí)候,人可以幫機(jī)器學(xué)習(xí),在交互過(guò)程中提供給機(jī)器更多的樣本,而機(jī)器會(huì)通過(guò)學(xué)習(xí)變得越來(lái)越智能,回過(guò)頭來(lái)可以幫助人類更好地交流。
2012年,字節(jié)跳動(dòng)的重要產(chǎn)品今日頭條誕生。它顛覆了搜索引擎,建立了全新的人與信息的連接方式。我們用分布式的學(xué)習(xí)理解人的特征、內(nèi)容的特征,用最核心的排序算法技術(shù),讓千人千面成為可能。在這個(gè)時(shí)代,我們重新定義了內(nèi)容分發(fā),用個(gè)性化精準(zhǔn)推薦的方式,讓用戶能夠隨時(shí)隨地得到他所需的信息。
今天我們連接人和信息主要有四種管道。首先是推薦,推薦是相對(duì)被動(dòng)的分發(fā),像助理一樣觀察人類的行為,他愛(ài)看什么、在什么時(shí)候看、怎么看。搜索在今天也仍然重要,它是一種主動(dòng)獲取行為。還有新一代的語(yǔ)音交互助理,通過(guò)語(yǔ)言理解和語(yǔ)音識(shí)別,幫助人找尋他所需要的信息,幫助他完成任務(wù)。最后,今天的很多信息都在像朋友圈這樣的社交圈子里傳播,社群和社交也是一種傳播的管道。
今天我們看到這四種方式都可以使用人工智能再往前推進(jìn),所以我今天的演講就會(huì)談到當(dāng)今以及人工智能未來(lái)如何更多更好地賦能。
在過(guò)去一兩年時(shí)間里面,大家如果注意的話,會(huì)發(fā)現(xiàn)短視頻已經(jīng)成為一種在世界范圍內(nèi)最受歡迎的信息生產(chǎn)與消費(fèi)形式。尤其大量的年輕一代喜歡用短視頻來(lái)表達(dá)他們自己,分享他們的故事和經(jīng)驗(yàn),與他們的親人朋友交流。
視頻是需要編解碼的,視頻的上傳和下載需要很大的帶寬。過(guò)去我們?cè)谶@個(gè)領(lǐng)域走了十幾年,到今天大范圍視頻內(nèi)容的上傳和下載已經(jīng)不是問(wèn)題了。接下來(lái)5G時(shí)代的到來(lái)會(huì)為我們視頻內(nèi)容的創(chuàng)作和消費(fèi)提供更多的網(wǎng)絡(luò)便利。
今天短視頻成為一個(gè)內(nèi)容形態(tài)的爆發(fā)點(diǎn),因?yàn)樗恍枰獛б粋€(gè)非常龐大的、昂貴的設(shè)備,手機(jī)上有非常智能的編輯工具。特別是計(jì)算機(jī)視覺(jué)、智能語(yǔ)音賦予了每個(gè)人更強(qiáng)的創(chuàng)作能力。在過(guò)去一年半,短視頻在全球范圍內(nèi)都有快速的增長(zhǎng)。節(jié)跳動(dòng)旗下短視頻產(chǎn)品的代表抖音也風(fēng)靡全球今年一季度,抖音下載量超越Facebook、Youtube、Instagram等,成為全球下載量最高的iPhone應(yīng)用。我給大家看一個(gè)視頻,可以讓大家更多地了解這個(gè)產(chǎn)品本身到底是什么樣的形式。
抖音這個(gè)產(chǎn)品背后有非常多的 AI 技術(shù)。比如,抖音是一個(gè)開放共享的平臺(tái),內(nèi)容審核方面的挑戰(zhàn)是非常大的。我們一直用人工智能輔助審核,過(guò)濾理解這些視頻內(nèi)容,進(jìn)行版權(quán)識(shí)別。到現(xiàn)在,我們的平臺(tái)上,每天有龐大數(shù)量的短視頻內(nèi)容被創(chuàng)作出來(lái)。我們的機(jī)器學(xué)習(xí)模型上線之后,也在持續(xù)不斷迭代完善。
我們也希望在視頻內(nèi)容領(lǐng)域做出更好的搜索。視頻的搜索需要對(duì)視頻的內(nèi)容有更好的理解,包括動(dòng)作的理解、物體的檢測(cè)跟蹤,還有視頻里的環(huán)境識(shí)別。我們也希望針對(duì)每一個(gè)視頻,AI都能理解它的情感和情緒。一個(gè)人看完視頻之后會(huì)有什么樣的情緒反應(yīng)呢?如果會(huì)讓人產(chǎn)生不適的負(fù)面感受,那是否就需要考慮這個(gè)視頻是否適合分發(fā)給某些用戶。任何一個(gè)新的視頻上來(lái)的時(shí)候,我們需要預(yù)測(cè)它會(huì)被什么樣的人群喜歡,哪些人更希望看到。
通過(guò)人臉識(shí)別還有關(guān)鍵點(diǎn)的檢測(cè),我們可以做出很多創(chuàng)意濾鏡和特效,這些也是抖音制勝的關(guān)鍵原因之一。
我還在微軟的時(shí)候,微軟有一款產(chǎn)品 Kinect,就是放在電視機(jī)的前面,它能夠檢測(cè)你人體的關(guān)鍵點(diǎn)。而今天我們已經(jīng)能夠把這樣的技術(shù)延伸到了手機(jī)上。在手機(jī)上經(jīng)過(guò)模型分析,我們可以為你生成一系列的舞蹈姿勢(shì)動(dòng)作,根據(jù)用戶的舞蹈模仿表現(xiàn)系統(tǒng)會(huì)給出評(píng)分。這就是去年大受歡迎的抖音“尬舞機(jī)”。
愛(ài)美之心,人皆有之?,F(xiàn)在很多的女孩子希望在鏡頭前面看起來(lái)更加的美、腿更長(zhǎng)、腰更瘦,現(xiàn)在不僅自拍能實(shí)現(xiàn)這樣的效果,拍視頻也可以辦得到。
除了應(yīng)用于短視頻產(chǎn)品,字節(jié)跳動(dòng)的人工智能技術(shù)還通過(guò)我們的多款產(chǎn)品賦能信息創(chuàng)作與交流的各個(gè)環(huán)節(jié)。
比如我們16年就研發(fā)出獲得過(guò)吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)的xiaomingbot寫作機(jī)器人。相比于人類作者,小明的效率和產(chǎn)量高,2秒就能成稿,每場(chǎng)比賽賽后發(fā)稿,2年內(nèi)生成12萬(wàn)粉絲和10億閱讀。過(guò)去頭條平臺(tái)上許多體育播報(bào)是由小明寫的,他每天讀很多內(nèi)容,綜合網(wǎng)上文字描述理解和圖片例子和視頻理解能夠自動(dòng)生成一個(gè)內(nèi)容,分發(fā)給對(duì)某一類信息感興趣的讀者。
我們可以現(xiàn)場(chǎng)給大家演示一下小明是如何寫稿的。
畫面中的這場(chǎng)比賽是日本和比利時(shí)在2018年世界杯中的比賽。小明會(huì)首先根據(jù)出場(chǎng)球員生成文字,然后追蹤定位關(guān)鍵節(jié)點(diǎn)人物的行為動(dòng)作,偵測(cè)這個(gè)球員在場(chǎng)上的位置,他只要一轉(zhuǎn)身,我們就可以識(shí)別出來(lái),可以知道他們?cè)趫?chǎng)上的活動(dòng),他是否進(jìn)球,裁判判哪個(gè)球員違規(guī)。之后小明還能對(duì)視頻內(nèi)容能做進(jìn)一步的理解,生成更好的摘要,還可以選出最好的一張圖作為封面。它可以進(jìn)一步把內(nèi)容直接用機(jī)器翻譯,翻成葡萄語(yǔ)、英語(yǔ)、法語(yǔ)等,再分發(fā)給世界各國(guó)的用戶。
前面有提到AI輔助內(nèi)容審核,這是一個(gè)非常重要的問(wèn)題。在我們平臺(tái)上有 600 多個(gè)機(jī)器學(xué)習(xí)模型,自動(dòng)能夠來(lái)理解和識(shí)別內(nèi)容,幫助我們節(jié)省人工成本。它是一個(gè)人機(jī)交互的閉環(huán),我們的審核人員也是我們的標(biāo)注人員,用標(biāo)注好的數(shù)據(jù)訓(xùn)練模型再反過(guò)來(lái)幫助他們來(lái)審核,目前已經(jīng)為公司節(jié)省了超過(guò)十萬(wàn)的審核人力。
看這個(gè)人工智能驅(qū)動(dòng)信息平臺(tái)的示意圖,我們不但要在中間做好內(nèi)容分發(fā),更好地推薦信息、幫助用戶搜索,實(shí)現(xiàn)更好人機(jī)交互體驗(yàn),我們也用AI去幫助用戶更好地生產(chǎn)內(nèi)容、提升信息消費(fèi)體驗(yàn)。
連接人跟信息是一個(gè)人類社會(huì)的基礎(chǔ)設(shè)施。在這個(gè)設(shè)施的運(yùn)作過(guò)程中,我們能夠利用大數(shù)據(jù)、豐富應(yīng)用的場(chǎng)景、我們大量的活躍用戶,去不斷完善和迭代,進(jìn)一步賦能。
和歷次工業(yè)革命一樣,我們?nèi)缃襁~入人工智能時(shí)代,是人類社會(huì)了不起的進(jìn)步。而技術(shù)的進(jìn)步最終是服務(wù)于人類的。我們鉆研技術(shù)不僅是鉆研技術(shù)本身,更重要的是研究如何用它來(lái)解決人類社會(huì)的難題。
我們將人工智能結(jié)合產(chǎn)品功能積極服務(wù)于公益,兩年半時(shí)間成功尋回7254名走失者的“頭條尋人”,這是一個(gè)典型的運(yùn)用人工智能促進(jìn)信息效率,進(jìn)而服務(wù)公益的產(chǎn)品機(jī)制:結(jié)合智能推薦和地理推送技術(shù),以走失者走失地為圓心,根據(jù)走失者行走速度等信息進(jìn)行數(shù)據(jù)分析和計(jì)算,預(yù)估出可能的走失范圍,在此范圍內(nèi)推送尋人信息,實(shí)現(xiàn)每條尋人信息的精準(zhǔn)地理范圍覆蓋和人群觸達(dá),從而大大提高尋人成功率。9月底我們還將這套機(jī)制與視頻載體結(jié)合,上線了“抖音尋人”,運(yùn)用自動(dòng)生成視頻技術(shù),一條文字版的尋人信息,不到10秒鐘,即可自動(dòng)生成為一條抖音尋人視頻。
字節(jié)跳動(dòng)還用AI技術(shù)還助力教育扶貧,“益童樂(lè)園”貴州起航,“鄉(xiāng)村AI教師”全面建成,我們希望讓貧困地區(qū)的孩子也接受到良好的教育。
基于前面提到的種種嘗試與努力,字節(jié)跳動(dòng)的愿景也正在逐步實(shí)現(xiàn)——建設(shè)全球創(chuàng)作與交流平臺(tái)。公司成立至今六年以來(lái),我們的產(chǎn)品和服務(wù)已經(jīng)覆蓋150多個(gè)國(guó)家、75個(gè)語(yǔ)種,在40多個(gè)國(guó)家和地區(qū)位居應(yīng)用商店總榜前列。而這背后,正是科技和創(chuàng)新在推動(dòng)全球化的發(fā)展,我們擁有的人工智能技術(shù)是字節(jié)跳動(dòng)全球化取得當(dāng)前進(jìn)展的關(guān)鍵。未來(lái),字節(jié)跳動(dòng)也將繼續(xù)基于我們自身豐富多樣的移動(dòng)端產(chǎn)品應(yīng)用場(chǎng)景和全球的活躍用戶,持續(xù)積累,潛心鉆研,和在座各位一起不斷地改善和推進(jìn)我們的核心技術(shù),為中國(guó)人工智能的發(fā)展貢獻(xiàn)一份力量!
謝謝大家!
更多 CNCC 2018 精彩報(bào)道,請(qǐng)繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評(píng)論。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章