0
A:快到平安夜、圣誕節(jié)、跨年夜了,準備去哪?
B:想去香港,前兩天看到有低價票,泰國也不錯,最近也有低價票,國內就算了,沒看到什么打折活動。
A:搶得到嗎?我沒有一次搶到低價票的。
B:試試唄,我家網(wǎng)還行。
結果 B 小姐深夜敷著面膜準備發(fā)大招搶的特價機票被秒光,她氣得砸鍵盤,“對面和我搶票的什么鬼?”
她有所不知的是,同她搶票的不是鬼,是爬蟲。
“賣票賣票!北京往返大阪的往返機票只需2599元!”
類似出現(xiàn)在朋友圈中的賣票信息很是常見,大多用戶在查詢到航企 APP 中票價已翻數(shù)倍時情不自禁剁了手。殊不知航企每每發(fā)出的特價票幾乎都被這些機票代理人利用“爬蟲”技術搶占一空,所以搶不到低價票不要再怪網(wǎng)絡問題了。
具體來說,這一技術利用了航企訂票、購票流程中的帳期,即訂票后可能有10-30分鐘或者更多的支付時間。自動化的爬蟲技術正是抓住了這一時間差,利用虛擬身份進行訂票。此時雖未付錢,但此票已歸屬該虛擬身份,在賬期內票務方將這些低價票掛在自有網(wǎng)站、APP、微店、淘寶店或朋友圈等平臺高價轉賣,謀取差價。若在賬期內沒有賣出此票,爬蟲也可在限定時間內取消訂單或在訂單失效后馬上續(xù)訂,保證此票一直在手。
而普通用戶在航企官網(wǎng)查看時卻顯示低價票已售盡。
爬蟲程序(crawler/spider),又稱,蜘蛛程序。雖然以多足動物命名但其起源卻是搜索引擎,即按照一定的規(guī)則,自動地抓取互聯(lián)網(wǎng)信息的程序或者腳本。
而隨之漫長的進化,這一物種也被用于各大互聯(lián)網(wǎng)金融、電商平臺,以及社交領域等。在上述搶票環(huán)節(jié),爬蟲不僅抓取航企官網(wǎng)的機票價格,在發(fā)現(xiàn)特價機票后更充當“偽裝者”,仿冒真人用戶搶訂機票。
事實上,航企投放的低價機票很少被普通用戶買到,據(jù)業(yè)內人士估計,80% 以上低價機票被票務公司的爬蟲搶走。
爬蟲肆虐到底是何原因?
“利益驅動,這是一切事情最原始的出發(fā)點?!薄U憬钍⒖萍技夹g總監(jiān)李白對雷鋒網(wǎng)如此說。
如果說利益是起點,那提直降代、行業(yè)競爭、網(wǎng)站獲客則為爬蟲肆虐填了一把火。
提直降代,航空公司被迫加入爬蟲之戰(zhàn)
2015 年上半年,國資委要求幾家國有航空公司未來三年內直銷比例要提升至50%,同時代理費要在2014年的基礎上下降 50%。
一場“提直降代”大戰(zhàn)被推向制高點,有業(yè)內人士介紹稱,直銷比例每提高 10%,航空公司就可以從代理人手中節(jié)約近10億元的分銷費用。相反代理渠道出票占比下降,低價票、退改簽、捆綁保險及其他產品等“傳統(tǒng)盈利空間”被打壓。利潤下降催生了票務公司轉型,通過爬蟲賺取差價。
行業(yè)競爭促生爬蟲肆虐
任何一個行業(yè)都存在競爭,各大航空公司除了不斷優(yōu)化飛機設施以及服務態(tài)度來增加用戶體驗,也需要技術手段。
舉例來說,A、B 兩家航企皆開通了北京到馬來西亞航線,如果 A 航企通過爬蟲技術占據(jù)了 B 公司大部分票源,造成其無票可售后,乘客自然轉向B公司購票。又或者利用爬蟲技術占據(jù)經濟艙座位,面對貴賓區(qū)高昂的價格多數(shù)乘客會選擇更換平臺購票。
而遭受虛擬占座導致資源浪費,賣不出票的 A 公司會善罷甘休嗎?
當然不會,互爬大戲就此掀開。
OTA 網(wǎng)站吸引用戶
如同程、攜程、驢媽媽、去哪兒之類的 OTA 網(wǎng)站如何通過推廣手段,獲取更多的客戶?
降低票價吸引客戶,自然最有效的手段。但如何定價才能既不傷害自己的利潤又略低于他家則是最關鍵的問題。要做到這一點勢必先了解其他友商、同行普遍票價,此時便用到了爬蟲技術。這似乎變成了行業(yè)潛規(guī)則,你爬我,我爬你,造成爬蟲流量占據(jù)平臺總流量 95% 的奇景很是平常。
看似常見的機票爬蟲實則造成了一系列連鎖反應,用戶信息泄露,平臺流量崩潰,機票詐騙,最初幾塊骨牌的傾斜引發(fā)的是整排多米諾骨牌的傾塌。
爬蟲與反爬蟲是博弈的過程,在此過程中無論是道高一尺還是魔高一丈都會引發(fā)不同的碰撞。
常規(guī)“反爬蟲”技術包括IP限頻限次、識別控制代理IP、祭出各類復雜驗證碼等。其中,IP 來源單一、從未成交過訂單且行動異常的IP、訪問頻次過高等容易被識別出的“爬蟲”,會被封掉IP。而對于航企來說,這遠遠不夠。
航空公司下一步應該做什么?
李白告訴雷鋒網(wǎng),航企可以從兩方面考慮,其一是從業(yè)務場景上改進。
比如關于時間差問題,以往訂票后的賬期內已鎖定某座位,其他人不能再定這張票。而目前國內三大航企已著手修改這一支付規(guī)則,必須付款后才會鎖定座位,若是沒有付款,這一座位仍可以被其他乘客購買。相當于提升了攻方的占座成本。
但是這一招數(shù)卻相當于傷敵一千,自毀五百,因為會使用戶體驗下降,且降低了用戶的轉化率。
其二從技術手段上來說,航企的目標是要提升爬蟲搶票行為識別的準確率,只有提升了準確率,才能精準打擊,減少誤差。
如何提升準確率呢?
可以從客戶端和服務端上融合實現(xiàn)??蛻舳税踩赣脼g覽器、APP購票的時候,在設備上進行環(huán)境的檢測,檢測出來對方是否自動化爬蟲工具占票。同時再用人機識別(結合全網(wǎng)大數(shù)據(jù)分析的行為識別)。另外不但環(huán)境要是安全的,用戶行為也必須是合理的,真實用戶購票過程一定不會直接買票,而是有瀏覽軌跡或者頁面跳轉,如果沒有這些動作則被視為潛在風險用戶。
在服務端,可以基于對外部訂票網(wǎng)站的全流量進行大數(shù)據(jù)的分析和智能決策,針對一個 IP或者設備 結合多要素進行綜合分析決策,譬如其中間的點擊,訪問軌跡,包括其訪問網(wǎng)站時對靜態(tài)資源(圖片、CSS)的訪問豐富度等等,因為正常的用戶一定要去執(zhí)行這些東西,但是直接通過報文模擬他就不會去做。
而智能分析決策平臺是如何搭建的呢?
李白告訴雷鋒網(wǎng),這個決策的過程就得通過專家,對整個票務領域的場景理解,針對的性給出一些專家規(guī)則,甚至我們也可以基于本地化的流量,再結合我們在云端的全網(wǎng)數(shù)據(jù)的分析,兩者相結合,通過機器學習不斷的優(yōu)化我們這個規(guī)則,或者說給出一些樹模型、神經網(wǎng)絡的模型。在線預測的這種機制,可以更進一步的提升準確率,和查全率,既要查的準,又要抓的多。
當然上述決策往往建立在封IP的基礎上, 但這種既可能誤傷真實用戶,對于攻方來說,一個IP不能訪問那就換一個。所以守方也開始考慮,控制手段除了封閉,是否可以考慮加入動態(tài)的驗證碼,或者限速、限流、延遲到達等等。
比如某些網(wǎng)絡爬蟲采用先訂票不支付,直到訂單截止的前一秒取消訂單并馬上重新訂票。若被識別出來,完全可以讓原本計劃的無縫銜接的二次搶占行為延遲幾分鐘到票務網(wǎng)站,在對方處于無感知狀態(tài)下發(fā)現(xiàn)到手的票沒了。除此之外,也可以在識別出機器人爬蟲后將購票頁面跳轉到虛假網(wǎng)頁,讓其竹籃打水。
總之,“反爬蟲”并非一朝一夕,這場攻防戰(zhàn)必定是漫長的過程。
雷峰網(wǎng)原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。