1
把媒體內容分發(fā)給用戶,“你關心的才是頭條”,對于今日頭條這個產品,相信大家都不陌生。那么,你是否好奇過,今日頭條是如何做到,向每個讀者推送不一樣的、據稱是符合讀者每個人不同興趣的內容的呢?今日頭條算數中心執(zhí)行總監(jiān)劉志毅在日前于深圳北京大學匯豐商學院舉行的“數據之美”論壇上做了介紹。
雖然對于頭條來講,其用戶量、用戶的粘性時間已經足夠大了,但是,要怎么樣精細,怎么樣的數據才是可信賴的,怎么樣的數據是可復用的?
對于數據所產生和獲取的流程,今日頭條算數中心執(zhí)行總監(jiān)劉志毅拋出一道小問題來介紹:
現在面前有很多顆糖果,然后有兩個人要把這個糖果的數量數清楚,有一個人他會加減乘除地來數,3顆3顆數,5顆5顆地;還有一個人就很笨,只會一顆一顆,永遠一顆一顆地數,那問一下,是哪一個人能夠先把這一大堆糖果數清楚?。?/span>
事實上,按正常的邏輯確實應該回答“第一個”的,“但是在互聯網公司,答案是第二個,因為雖然是一顆一顆地數,但他一秒種可以數一萬個,所以他更直接更快速。”這是機器學習發(fā)展到今天的成果,機器分發(fā)的效率一定大于人工分發(fā)。在2016年的年終,易觀發(fā)布的第三方數據顯示,如今機器分發(fā)的比例已經超過了人工分發(fā)。
分發(fā)糖果與分發(fā)內容邏輯是一樣的。那么,這背后,頭條具體的引擎是怎么樣工作的?這時候需要把文章和用戶兩端的數據連接起來。
據劉志毅解釋,
首先文章進入機器引擎后,頭條需要機器識別它們的關鍵詞,識別其涉及到的內容領域,用戶對它們的反應,然后把結果放到一個特征向量空間中。
與此同時,用戶端也發(fā)生了同樣的變化。
“然后我們去看這兩個向量,怎么樣匹配度最高,然后就推送給他?!?/p>
具體來說,這些用以匹配的數據變量可能包括幾個大方面的特征:
首先,這個用戶,他的性別興趣,年齡地域用的手機是什么?
家鄉(xiāng)是哪里?關注什么東西?會點什么樣的廣告?
然后他目前處在什么樣的環(huán)境?今天有沒有下雨?用WiFi還是用3G,4G,2G?
這個文章本身是一分鐘之內的快消息,還是幾年之內看都不算失效的消息?用戶的反饋對他們是什么樣?
這個文章有什么樣的關鍵詞……等等
這些數據將產生一個百億級別的特征,今日頭條最終根據特征判斷用戶的需求,把內容呈現到每一個人不同的手機屏幕上。
但是,這還不是最技術范的地方。數據部門真正做的事情是,“從剛剛所描述的這個過程中積累出來一些東西,然后讓他去發(fā)揮價值,”劉志毅說道,這才是數據挖掘的價值所在。
“這只是我所想要表達的數據維度的1%,”
用戶點擊什么文章?沒有點擊什么文章?
點贊還是點踩?
閱讀速度快不快?完成多少比例?
對某一個話題產生了持續(xù)性的還是短暫的影響?讀完之后有沒有講到什么評論?
那他用的是什么樣的手機在讀你的東西?是什么樣的手機的什么型號?去年用這個型號,今年是不是還用這個型號?
……
劉志毅稱,“這樣的信息都會作為這個用戶的組合特征的一部分,然后我們去提取這一部分來把它作為數據的樣本進行分析。”
數據到哪里去?
知道了數據怎么來之后,數據要到哪里去,產生怎樣的價值?這又是一場好戲了。
據雷鋒網了解,今日頭條曾推出了“今日頭條媒體實驗室”,這個實驗室的作用,相當于差異化內容創(chuàng)作的“參謀”。就是說,其將通過每一篇文章的傳播數據去告訴不同的內容的寫作者創(chuàng)作者,假如想要影響某一個特定的人群,需要怎么樣創(chuàng)作內容,并且在什么樣的平臺上,以什么樣的方式在什么樣的時間點發(fā)布是效率最大化的。
劉志毅舉了這樣一個例子:以美國總統(tǒng)選舉為例,在中國希拉里一直熱度是領先,但是跟美國人投票不一樣。最后希拉里敗選,但是她敗選之后,在頭條平臺上面的熱度也降得非常快,這個可能跟中國人對美國時政事件的關心規(guī)律有關系,那么,媒體則會依據這個來進行內容創(chuàng)作。
另外一個是,數據也許可以呈現出人類作者意想不到的角度:在今日頭條與南方周末的合作中,大家都關心學區(qū)房房價的問題,但數據顯示——在這些事實之外,跟學區(qū)房同時出現的概率最高的詞中間,“離婚”排在前3位。
這就是計算機輔助報道的一種方式,也是大數據、AI帶給傳統(tǒng)行業(yè)的變革。
除了反哺媒體創(chuàng)作,閱讀數據還有哪些想象力呢?
雷鋒網此前報道,在一些數據密集型的產業(yè),都成為了AI產業(yè)應用孵化的首選之地。接下來看了OPPO和vivo的案例,你就不會奇怪了。
眾所周知,去年,手機市場一個關注度頗高的話題是:大家發(fā)現主流手機品牌不那么景氣了,包括蘋果,但是有兩家廠商非常受關注——OPPO和Vivo。
“OPPO跟Vivo做了一件很有意思的事情,他們在345線城市的用戶很多,但是他們請了很多跟一二線城市的口味更匹配的代言人來作為宣傳他們品牌的代言人。這是他們根據通過閱讀數據產生的決定。他們充分把握住了345線城市對于手機的需求。”
雷鋒網了解到,根據頭條閱讀的數據發(fā)現,345線城市對于手機的具體參數、性價比方面表現得不那么敏感,但對于手機的體驗的介紹,卻是閱讀量遠高于一二線城市的?!八援擮PPO沒有把大部分的推廣和宣傳經費放到線下的渠道去影響345線城市的時候,他后面的成功,也是在閱讀數據上能夠發(fā)現的奇妙的地方。”
總的來說,劉志毅表示,AI之所以影響人類各行各業(yè),是因為,“閱讀其實是一種人們對于自我歸類的一種方式,所以頭條上面閱讀數據其實是人在不同的組別中間自我歸類的一些信息,這些規(guī)律的信息產生了我剛才所說到的所有的價值?!?/span>
封面圖來自網絡
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。