6
本文作者: 溫曉樺 | 2016-03-18 15:08 |
世界上比酒后發(fā)短信更危險(xiǎn)的事,就是酒后發(fā)(ren)推(jin)文(jie)了(zhi)吧。公開廣播自己醉酒顯然不是拓展社交應(yīng)該有的動(dòng)作,然而還是有很多人無法克制住吹噓他們的酒后越軌行為。而科學(xué)家為此也是操碎了心,據(jù)外媒報(bào)道,科學(xué)家已經(jīng)訓(xùn)練出一套算法,能夠識(shí)別出與“醉酒推文”,甚至還能知道發(fā)推時(shí)是否正在喝酒。
據(jù)悉,美國羅徹斯特大學(xué) 研究員Nabil Hossain決定在Twitter和機(jī)器學(xué)習(xí)結(jié)合起來,以在特定群體中跟蹤監(jiān)測醉酒用戶和推文。
為了進(jìn)行訓(xùn)練,Nabil Hossain收集2013年7月至2014年7月之間成千上萬被標(biāo)記的推文,然后將包含與豪飲相關(guān)關(guān)鍵字的推文篩選出來。
隨后,他們通過亞馬遜土耳其機(jī)器人(Mechanical Turk)的眾包服務(wù)將1.1萬條推文混合起來,每一條推文都要通過三個(gè)提問:
Q1:這條推文有任何與酒精相關(guān)的跡象嗎?
Q2:如果有,推文內(nèi)容是關(guān)于酒醉的發(fā)推者本身的嗎?
Q3:如果是,推文有可能是在發(fā)推者喝酒所在的時(shí)間地點(diǎn)發(fā)出的嗎?
Hossain用答案來訓(xùn)練三套不同的算法——“線性支持向量機(jī)”(SVM)——來回答每一個(gè)問題。
準(zhǔn)確率(識(shí)別出醉酒推文)——機(jī)器學(xué)習(xí)的準(zhǔn)確率和Turkers的結(jié)果——算法回答Q1的準(zhǔn)確率為92%,Q3準(zhǔn)確率則為82%。
然而,該團(tuán)隊(duì)進(jìn)行了更深入的研究,試圖定位推文的發(fā)文地點(diǎn),是在家里還是其他什么地方。為了鎖定用戶的發(fā)推地點(diǎn),研究者將一些與家庭相關(guān)的關(guān)鍵字搜羅起來,比如沐浴、沙發(fā)、電視、睡覺以及家等,然后進(jìn)行推文篩選。
以同樣的訓(xùn)練方法,研究團(tuán)隊(duì)聲稱成功創(chuàng)建一套準(zhǔn)確率達(dá)到80%的算法來識(shí)別發(fā)推地點(diǎn)。
根據(jù)研究結(jié)果,該團(tuán)隊(duì)勾勒出紐約州居民喜好的喝酒地點(diǎn)——家里,俱樂部等等。這是一個(gè)有趣的發(fā)現(xiàn), 因?yàn)橛辛诉@些數(shù)據(jù),研究者可以描繪出一種模式,比如紐約市的人們喜歡在家里附近喝酒,而其他某個(gè)地區(qū)的人喜歡在郊區(qū)喝酒,這樣的統(tǒng)計(jì)可以反饋酒類飲品消費(fèi)聚集地。
“未來我們可以利用這項(xiàng)技術(shù)來對(duì)社交媒體上的飲酒消費(fèi)進(jìn)行全面的研究?!?/p>
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。