字節(jié)跳動馬維英：人工智能賦能內容創(chuàng)作和交流 | CNCC 2018

本文作者：楊曉凡

2018-10-28 21:59

專題：CNCC 2018

導語：不知不覺之中，我們享受內容的方式變了，生產(chǎn)內容的人也變了

今日頭條人工智能實驗室

AI影響因子

活動

企業(yè)：字節(jié)跳動

操作：CNCC 2018 技術演講

事項：“人工智能賦能內容創(chuàng)作和交流”主題演講

雷鋒網(wǎng) AI 科技評論按：2018 中國計算機大會（CNCC2018）于 10 月 25-27 日在杭州國際博覽中心舉辦，會議由中國計算機學會（CCF）主辦，杭州市蕭山區(qū)人民政府、浙江大學承辦，浙江工業(yè)大學、浙江工商大學、杭州電子科技大學協(xié)辦。

今年的大會主題是「大數(shù)據(jù)推動數(shù)字經(jīng)濟（Big Data Drives the Digital Economy）」，CNCC 邀請到近 400 位國內外計算機領域知名專家、企業(yè)家到會演講。大會第二日上午，字節(jié)跳動副總裁、字節(jié)跳動人工智能實驗室主任馬維英帶來題為《人工智能賦能內容創(chuàng)作和交流》的報告。

在報告中，馬維英回顧了內容分發(fā)、內容理解和內容創(chuàng)作等多個方面的技術變革歷程。雖然隨著 IT 技術大潮的發(fā)展，這些領域都有自己的變化，但人工智能技術在這些方面也都有越來越多的參與，越來越成為強大、好用的人類的助手。未來，人工智能相關技術也將會成為人與人之間互相聯(lián)系、人與整個社會建立聯(lián)系的重要基礎設施。

雷鋒網(wǎng) AI 科技評論根據(jù)現(xiàn)場速記整理馬維英的報告內容如下。

字節(jié)跳動馬維英：人工智能賦能內容創(chuàng)作和交流 | CNCC 2018

馬維英：

大家好，我是字節(jié)跳動人工智能實驗室的負責人馬維英，很榮幸今天能來到CNCC跟在座各位分享一些我們對人工智能的思考，人工智能的發(fā)展及應用現(xiàn)狀。

回溯人類歷史的長河，人與人之間交流、信息的創(chuàng)造和傳播都是人類社會和人類文明誕生的基礎。而在幾千年之后的當下，如何用更智能的方式表達和傳播文字、圖片、語音、音樂、視頻，是否還會誕生前所未見的新的內容的形式，我們又如何用人工智能賦予每個人新的能力，這些都值得我們去思考和探索。

我們可以看到整個人類的歷史在不同階段使用不同的技術去傳遞和連接人與信息，有過多次技術變革。在早期，人與人之間的溝通是在紙上書寫，中國人發(fā)明了造紙術、印刷術。

到后來網(wǎng)站、網(wǎng)頁讓紙張消失，成為了我們的數(shù)字圖書館，我們開始使用搜索引擎，一鍵便可以直達自己的所需。而到了移動互聯(lián)網(wǎng)時代，紙張消失得愈加明顯，人類可以隨時隨地用智能手機接觸他所需要的信息。同時人與人思想交換也更便捷，人與人之間、作者與讀者之間可以隨時交流，還能組成社群，大家一起學習，一起創(chuàng)作。

字節(jié)跳動馬維英：人工智能賦能內容創(chuàng)作和交流 | CNCC 2018

隨著人工智能技術的發(fā)展，整個人類的創(chuàng)作交流將變得越來越智能——更加個性化、社交化和無所不在化。萬物互聯(lián)的時代到來之后，人類可以隨時隨地獲取到他們想要的信息。創(chuàng)作的門檻也不斷拓寬，從機構媒體，到自媒體，再到現(xiàn)在每個人都能夠創(chuàng)作，人類社會的信息生產(chǎn)和交流到今天進入到一個新的時代。

人工智能可以根據(jù)大量數(shù)據(jù)樣本進行訓練學習，無論文字、圖片、視頻還是直播，都是AI不斷挖掘的材料。我們預測在未來超級智能時代到來的時候，人可以幫機器學習，在交互過程中提供給機器更多的樣本，而機器會通過學習變得越來越智能，回過頭來可以幫助人類更好地交流。

字節(jié)跳動馬維英：人工智能賦能內容創(chuàng)作和交流 | CNCC 2018

2012年，字節(jié)跳動的重要產(chǎn)品今日頭條誕生。它顛覆了搜索引擎，建立了全新的人與信息的連接方式。我們用分布式的學習理解人的特征、內容的特征，用最核心的排序算法技術，讓千人千面成為可能。在這個時代，我們重新定義了內容分發(fā)，用個性化精準推薦的方式，讓用戶能夠隨時隨地得到他所需的信息。

今天我們連接人和信息主要有四種管道。首先是推薦，推薦是相對被動的分發(fā)，像助理一樣觀察人類的行為，他愛看什么、在什么時候看、怎么看。搜索在今天也仍然重要，它是一種主動獲取行為。還有新一代的語音交互助理，通過語言理解和語音識別，幫助人找尋他所需要的信息，幫助他完成任務。最后，今天的很多信息都在像朋友圈這樣的社交圈子里傳播，社群和社交也是一種傳播的管道。

今天我們看到這四種方式都可以使用人工智能再往前推進，所以我今天的演講就會談到當今以及人工智能未來如何更多更好地賦能。

字節(jié)跳動馬維英：人工智能賦能內容創(chuàng)作和交流 | CNCC 2018

在過去一兩年時間里面，大家如果注意的話，會發(fā)現(xiàn)短視頻已經(jīng)成為一種在世界范圍內最受歡迎的信息生產(chǎn)與消費形式。尤其大量的年輕一代喜歡用短視頻來表達他們自己，分享他們的故事和經(jīng)驗，與他們的親人朋友交流。

視頻是需要編解碼的，視頻的上傳和下載需要很大的帶寬。過去我們在這個領域走了十幾年，到今天大范圍視頻內容的上傳和下載已經(jīng)不是問題了。接下來5G時代的到來會為我們視頻內容的創(chuàng)作和消費提供更多的網(wǎng)絡便利。

今天短視頻成為一個內容形態(tài)的爆發(fā)點，因為它不需要帶一個非常龐大的、昂貴的設備，手機上有非常智能的編輯工具。特別是計算機視覺、智能語音賦予了每個人更強的創(chuàng)作能力。在過去一年半，短視頻在全球范圍內都有快速的增長。節(jié)跳動旗下短視頻產(chǎn)品的代表抖音也風靡全球今年一季度，抖音下載量超越Facebook、Youtube、Instagram等，成為全球下載量最高的iPhone應用。我給大家看一個視頻，可以讓大家更多地了解這個產(chǎn)品本身到底是什么樣的形式。

抖音這個產(chǎn)品背后有非常多的 AI 技術。比如，抖音是一個開放共享的平臺，內容審核方面的挑戰(zhàn)是非常大的。我們一直用人工智能輔助審核，過濾理解這些視頻內容，進行版權識別。到現(xiàn)在，我們的平臺上，每天有龐大數(shù)量的短視頻內容被創(chuàng)作出來。我們的機器學習模型上線之后，也在持續(xù)不斷迭代完善。

我們也希望在視頻內容領域做出更好的搜索。視頻的搜索需要對視頻的內容有更好的理解，包括動作的理解、物體的檢測跟蹤，還有視頻里的環(huán)境識別。我們也希望針對每一個視頻，AI都能理解它的情感和情緒。一個人看完視頻之后會有什么樣的情緒反應呢？如果會讓人產(chǎn)生不適的負面感受，那是否就需要考慮這個視頻是否適合分發(fā)給某些用戶。任何一個新的視頻上來的時候，我們需要預測它會被什么樣的人群喜歡，哪些人更希望看到。

字節(jié)跳動馬維英：人工智能賦能內容創(chuàng)作和交流 | CNCC 2018

通過人臉識別還有關鍵點的檢測，我們可以做出很多創(chuàng)意濾鏡和特效，這些也是抖音制勝的關鍵原因之一。

我還在微軟的時候，微軟有一款產(chǎn)品 Kinect，就是放在電視機的前面，它能夠檢測你人體的關鍵點。而今天我們已經(jīng)能夠把這樣的技術延伸到了手機上。在手機上經(jīng)過模型分析，我們可以為你生成一系列的舞蹈姿勢動作，根據(jù)用戶的舞蹈模仿表現(xiàn)系統(tǒng)會給出評分。這就是去年大受歡迎的抖音“尬舞機”。

愛美之心，人皆有之?，F(xiàn)在很多的女孩子希望在鏡頭前面看起來更加的美、腿更長、腰更瘦，現(xiàn)在不僅自拍能實現(xiàn)這樣的效果，拍視頻也可以辦得到。

字節(jié)跳動馬維英：人工智能賦能內容創(chuàng)作和交流 | CNCC 2018

除了應用于短視頻產(chǎn)品，字節(jié)跳動的人工智能技術還通過我們的多款產(chǎn)品賦能信息創(chuàng)作與交流的各個環(huán)節(jié)。

比如我們16年就研發(fā)出獲得過吳文俊人工智能科學技術獎的xiaomingbot寫作機器人。相比于人類作者，小明的效率和產(chǎn)量高，2秒就能成稿，每場比賽賽后發(fā)稿，2年內生成12萬粉絲和10億閱讀。過去頭條平臺上許多體育播報是由小明寫的，他每天讀很多內容，綜合網(wǎng)上文字描述理解和圖片例子和視頻理解能夠自動生成一個內容，分發(fā)給對某一類信息感興趣的讀者。

我們可以現(xiàn)場給大家演示一下小明是如何寫稿的。

字節(jié)跳動馬維英：人工智能賦能內容創(chuàng)作和交流 | CNCC 2018

畫面中的這場比賽是日本和比利時在2018年世界杯中的比賽。小明會首先根據(jù)出場球員生成文字，然后追蹤定位關鍵節(jié)點人物的行為動作，偵測這個球員在場上的位置，他只要一轉身，我們就可以識別出來，可以知道他們在場上的活動，他是否進球，裁判判哪個球員違規(guī)。之后小明還能對視頻內容能做進一步的理解，生成更好的摘要，還可以選出最好的一張圖作為封面。它可以進一步把內容直接用機器翻譯，翻成葡萄語、英語、法語等，再分發(fā)給世界各國的用戶。

前面有提到AI輔助內容審核，這是一個非常重要的問題。在我們平臺上有 600 多個機器學習模型，自動能夠來理解和識別內容，幫助我們節(jié)省人工成本。它是一個人機交互的閉環(huán)，我們的審核人員也是我們的標注人員，用標注好的數(shù)據(jù)訓練模型再反過來幫助他們來審核，目前已經(jīng)為公司節(jié)省了超過十萬的審核人力。

字節(jié)跳動馬維英：人工智能賦能內容創(chuàng)作和交流 | CNCC 2018

看這個人工智能驅動信息平臺的示意圖，我們不但要在中間做好內容分發(fā)，更好地推薦信息、幫助用戶搜索，實現(xiàn)更好人機交互體驗，我們也用AI去幫助用戶更好地生產(chǎn)內容、提升信息消費體驗。

連接人跟信息是一個人類社會的基礎設施。在這個設施的運作過程中，我們能夠利用大數(shù)據(jù)、豐富應用的場景、我們大量的活躍用戶，去不斷完善和迭代，進一步賦能。

字節(jié)跳動馬維英：人工智能賦能內容創(chuàng)作和交流 | CNCC 2018

和歷次工業(yè)革命一樣，我們如今邁入人工智能時代，是人類社會了不起的進步。而技術的進步最終是服務于人類的。我們鉆研技術不僅是鉆研技術本身，更重要的是研究如何用它來解決人類社會的難題。

我們將人工智能結合產(chǎn)品功能積極服務于公益，兩年半時間成功尋回7254名走失者的“頭條尋人”，這是一個典型的運用人工智能促進信息效率，進而服務公益的產(chǎn)品機制：結合智能推薦和地理推送技術，以走失者走失地為圓心，根據(jù)走失者行走速度等信息進行數(shù)據(jù)分析和計算，預估出可能的走失范圍，在此范圍內推送尋人信息，實現(xiàn)每條尋人信息的精準地理范圍覆蓋和人群觸達，從而大大提高尋人成功率。9月底我們還將這套機制與視頻載體結合，上線了“抖音尋人”，運用自動生成視頻技術，一條文字版的尋人信息，不到10秒鐘，即可自動生成為一條抖音尋人視頻。

字節(jié)跳動還用AI技術還助力教育扶貧，“益童樂園”貴州起航，“鄉(xiāng)村AI教師”全面建成，我們希望讓貧困地區(qū)的孩子也接受到良好的教育。

字節(jié)跳動馬維英：人工智能賦能內容創(chuàng)作和交流 | CNCC 2018

基于前面提到的種種嘗試與努力，字節(jié)跳動的愿景也正在逐步實現(xiàn)——建設全球創(chuàng)作與交流平臺。公司成立至今六年以來，我們的產(chǎn)品和服務已經(jīng)覆蓋150多個國家、75個語種，在40多個國家和地區(qū)位居應用商店總榜前列。而這背后，正是科技和創(chuàng)新在推動全球化的發(fā)展，我們擁有的人工智能技術是字節(jié)跳動全球化取得當前進展的關鍵。未來，字節(jié)跳動也將繼續(xù)基于我們自身豐富多樣的移動端產(chǎn)品應用場景和全球的活躍用戶，持續(xù)積累，潛心鉆研，和在座各位一起不斷地改善和推進我們的核心技術，為中國人工智能的發(fā)展貢獻一份力量！

謝謝大家！

更多 CNCC 2018 精彩報道，請繼續(xù)關注雷鋒網(wǎng) AI 科技評論。

雷峰網(wǎng)版權文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

3人收藏

專題

CNCC 2018

本專題其他文章

楊曉凡

讀論文為生

日常笑點滴，學術死腦筋

發(fā)私信

當月熱門文章