0
毫無疑問,馬蜂窩剛剛度過一個黑色周末。
10月20號微信公眾號“小聲比比”發(fā)表了一篇名為《獨家|估值175億的旅游獨角獸,是一座僵尸和水軍構成的鬼城》的文章,直指旅游網站馬蜂窩評論抓取抄襲其他旅游平臺,大量內容和抽獎涉嫌造假。
作者宛如手提一把98K的剛槍王,一槍一靶,甩出了馬蜂窩與點評,攜程、藝龍、美團、Agoda、Yelp等網站評論對比圖,操作堪稱一流。
這篇文章以朋友圈為擴散中心,迅速開啟病毒式傳播,短時間內達到10W+閱讀量。馬蜂窩隨后在10月22日也就是今天一早,發(fā)出了一則聲明稱,該自媒體文章所述的馬蜂窩用戶數(shù)量與事實和第三方機構數(shù)據(jù)都嚴重不符,并存在誤導傾向,已被查證為有組織攻擊行為,將采取法律手段維護自身權益。
馬蜂窩與爆料自媒體的口水戰(zhàn)還在繼續(xù),圍觀群眾也保持著吃瓜激情,支持者有,吐槽者有,抖機靈甩段子的也有。
比如知乎用戶羅一覺提出了一個有意思的細節(jié),馬蜂窩的這些假評論,主要是在工作日、工作時間發(fā)出來的。而不是和別的正常網站一樣,集中在飯點、休息日。
這說明:
馬蜂窩在抄襲的時候,沒有考慮到正常用戶的行為方式。如果程序員稍微動一下腦筋,把抄好的評論在飯點發(fā)出去,那就沒這么大的問題。
這些評論很可能是員工在工作時間一個一個抄過來的,而不是有什么自動化的軟件在抄襲。因為程序應該是不需要休息的。而且從數(shù)據(jù)來看,一萬五千活躍用戶,有三四年的時間,完全是一個人工團隊可以進行的工作量。所以,在馬蜂窩就有一個團隊,十來上百人,每天的任務就是把別家的評論抄到自己家的網站上。我無法想象這種工作的枯燥程度,簡直就是《城市之光》里的工人。他們可能拿著最低工資,但他們的產出,卻是馬蜂窩估值100億+人民幣的核心競爭力。
另一位知乎網友Windfury則聊到一些技術問題,
馬蜂窩上的攻略雷同的太多了,就像搜索引擎搜編程問題一樣,結果大都是機器人的互相拷貝,一個后果是錯誤的引導被復制來復制去。
馬蜂窩的問題對用戶來說除了相似內容太多,還有一個時效性問題,比如說很多景區(qū)當前在修路或者現(xiàn)在那個省份有票價優(yōu)惠,這對游客來說其實是很重要的信息,缺失了會導致行程出現(xiàn)嚴重問題,而這個問題在馬蜂窩現(xiàn)在這種社區(qū)模式下無法解決。
還有網友則認為爆料方是有備而來,
能把馬蜂窩,點評,攜程、藝龍、美團、Agoda、Yelp這些網站全部爬一遍,他背后的團隊技術實力肯定很強悍,肯定也花費了不少時間和金錢做這件事。不過我很好奇作者花費了這么多資源做這件事,僅僅是為了打假?我覺得原因沒那么簡單。
要么作者夸大了他的爬蟲數(shù)據(jù)量,要么作者也準備開一家馬蜂窩,手動狗頭。
也有網友認為這一連串都是套路,熟悉的配方多家使用,
沒有內容來源→爬蟲扒其他網站→數(shù)據(jù)量暴增→報表好看→估值暴增→風投(人傻錢多)源源不斷→IPO→套現(xiàn)
知乎網友 Lincoin 認為機器人創(chuàng)造內容,乃是業(yè)內的常見操作,沒什么新鮮的。
淘寶剛上線的時候,缺少種子用戶(小白鼠),馬老板帶著員工自己買自家商品寫評論打分,創(chuàng)業(yè)初期都是這么過來的。但是「抄襲」的這么明顯,還當自家資產來賣,這確實就有點不厚道了。
微博網友:
馬蜂窩:我們不生產內容,我們只是內容的搬運工;
從螞蜂窩改到馬蜂窩,怪不得會捅馬蜂窩……
當然還有一些網友情不自禁甩出了諸多表情包
……
關于數(shù)據(jù)挖掘這事兒
事實上,數(shù)據(jù)挖掘這件事兒一直都存有爭議,一方面平臺認為利用技術爬取數(shù)據(jù)可以完善功能提高用戶使用感,另一方面卻被質疑爬取的數(shù)據(jù)是否侵犯作者權益。
也有人好奇報道中稱馬蜂窩2100萬條“真實點評”中,有1800萬條都是通過機器人從競品網站抄襲過來的,這是如何做到的。
來自邦盛科技機器防御專家告訴雷鋒網宅客頻道,目前平臺均是通過網絡機器人技術從其他網站爬取信息,并抄襲到自己的平臺。
網絡機器人,是一種按照一定的規(guī)則,自動地抓取網絡信息的程序或者腳本。當前大部分的網絡機器人是通過直接發(fā)起http請求的方式獲取網頁資源,無js引擎,會進行一定的偽裝,并使用動態(tài)IP來躲避反爬蟲措施。隨著網站防護能力的不斷提升,網絡爬蟲會逐漸向瀏覽器內核型進化,從而具備執(zhí)行js的能力,并進一步的擬人化,增加被識別的難度。
總之,機器人創(chuàng)造內容已經不新鮮了,以馬蜂窩風波中的刷評為例,就是通過爬取競品的商家評論數(shù)據(jù),以預定義的一些隨機替換規(guī)則(比如稱謂,地點,時間等等)構造新的評論,最后利用馬蜂窩平臺設立的大批機器人賬號,發(fā)布在自己平臺的對應商家評論里。
當然,類似馬蜂窩去抓取其他網絡預訂同行的內容數(shù)據(jù)這種情況在業(yè)內很是常見,隨著互聯(lián)網的快速發(fā)展,網絡機器人也越來越普遍。
根據(jù)之前國外網絡安全公司的研究報告,50%左右的網絡流量來自網絡機器人,遍布各類網站,包括出行、社交、OTA、電商、招聘、銀行、政府等。例如出行類中的12306票務信息被各類搶票軟件瘋狂地爬取,高峰時刻每天的訪問量達到千億次。在社交類中,通過網絡爬蟲技術可以指揮一幫網絡機器人關注某人的微博、公眾號等,進行點贊、關注或者留言,制造大量的僵尸粉。
(因此諸多吃瓜群眾表示:知乎、微博大V軟文贊評都是刷的,大家彼此彼此。)
在問到最關鍵的被爬取內容網站是否能發(fā)覺并采取反爬手段時,專家告訴我們,針對爬蟲,常規(guī)的反爬蟲手段包括驗證碼、HTTP Header校驗、代理IP識別等。
隨著爬蟲技術的演進,常規(guī)的反爬蟲手段已經無法有效阻止爬蟲的訪問。近年來通過多維度、多層次的檢測,并輔以后端大數(shù)據(jù)分析來識別網絡機器人逐漸興起并成為主流。
利用設備指紋技術從設備維度定位網絡機器人,人機識別技術從操作行為判別機器人點擊和自動化點擊,而后端大數(shù)據(jù)實時分析技術可根據(jù)長周期數(shù)據(jù)進行復雜規(guī)則決策。綜合以上手段,可有效偵測爬蟲行為,保護網站的信息資產不被爬取和泄露。
手段想有都可以有,但平臺用不用就不知道了。
可惜,對于深陷輿論中心的馬蜂窩來說,黑色周末依然在延續(xù)。
參考來源:知乎
雷鋒網宅客頻道(微信公眾號:letshome),專注先鋒科技,講述黑客背后的故事,歡迎關注雷鋒網宅客頻道。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。