AI，如何助力ETA計(jì)算更加智能化？

本文作者：思佳

2017-05-25 18:08

導(dǎo)語(yǔ)：在更尋常的城市日常運(yùn)轉(zhuǎn)中，人工智能技術(shù)已經(jīng)為效率的提升做出了相當(dāng)大的貢獻(xiàn)，這些應(yīng)用包括且不限于物流運(yùn)輸、導(dǎo)航、路況預(yù)測(cè)等等。

雷鋒網(wǎng)新智駕按：“機(jī)器學(xué)習(xí)其實(shí)沒有多么高大上”，在騰訊位置日前召開的人工智能（AI）助力LBS應(yīng)用主題沙龍上，騰訊地圖導(dǎo)航技術(shù)總監(jiān)江紅英如是說。就在兩天前，AI還借AlphaGo的圍棋大戰(zhàn)沖擊著人們的眼球，但事實(shí)上，在更尋常的城市日常運(yùn)轉(zhuǎn)中，人工智能技術(shù)已經(jīng)為效率的提升做出了相當(dāng)大的貢獻(xiàn)，這些應(yīng)用包括且不限于物流運(yùn)輸、導(dǎo)航、路況預(yù)測(cè)等等。

江紅英是騰訊地圖導(dǎo)航技術(shù)的研發(fā)負(fù)責(zé)人，過去幾年里，他們的團(tuán)隊(duì)逐漸使用AI進(jìn)行算法優(yōu)化，并不斷轉(zhuǎn)變思維，讓AI技術(shù)為日常出行和物流服務(wù)。此次演講中，江紅英分享了AI如何助力ETA（預(yù)計(jì)達(dá)到時(shí)間）計(jì)算更加智能化，雷鋒網(wǎng)新智駕將內(nèi)容做了不改變?cè)獾膭h減整理，以饗讀者。

AI，如何助力ETA計(jì)算更加智能化？

我負(fù)責(zé)騰訊位置服務(wù)的導(dǎo)航研發(fā)工作，自2015年起，我們的團(tuán)隊(duì)逐漸將AI技術(shù)引入到導(dǎo)航服務(wù)中解決問題，例如實(shí)時(shí)路況預(yù)測(cè)、道路通行時(shí)間計(jì)算，再如從A點(diǎn)到B點(diǎn)，我們會(huì)計(jì)算很多條路線，并進(jìn)行優(yōu)先級(jí)排序，這其實(shí)是一個(gè)很大的話題。此次我以ETA計(jì)算為例，分享過去兩年來我們將AI技術(shù)引入導(dǎo)航服務(wù)中的一些經(jīng)驗(yàn)。

什么是ETA？

ETA指“預(yù)計(jì)到達(dá)時(shí)間”。坐過飛機(jī)的人都知道，機(jī)場(chǎng)有很多電子信息牌，牌子上會(huì)顯示航班的動(dòng)態(tài)信息，包括航班出港時(shí)間ETD，以及航班到達(dá)時(shí)間ETA。在交通運(yùn)輸行業(yè)，ETA其實(shí)是一個(gè)很常用的概念。使用地圖時(shí)，導(dǎo)航規(guī)劃線路后會(huì)給出一個(gè)預(yù)計(jì)多長(zhǎng)時(shí)間到達(dá)的數(shù)據(jù)，這便是ETA。既然是時(shí)間的預(yù)估，就會(huì)涉及到預(yù)估準(zhǔn)確與否的問題，對(duì)于這個(gè)準(zhǔn)確度，我們有一個(gè)衡量指標(biāo)，叫MAPE，即平均絕對(duì)百分誤差，它表征的是ETA和用戶實(shí)際到達(dá)時(shí)間之間的偏差。

對(duì)于個(gè)人用戶而言，ETA可以幫助人們更好地安排出行時(shí)間。對(duì)于網(wǎng)約車、物流等涉及車輛、人力調(diào)度的問題，ETA都可以幫助進(jìn)行輔助決策。

態(tài)度上：積極擁抱人工智能

我們目前理解的人工智能通常是指大數(shù)據(jù)+機(jī)器學(xué)習(xí)。在我看來，這其實(shí)是一種水到渠成的狀態(tài)，而不是為了用而用的。

2000年的時(shí)候，我們開始做圖像識(shí)別方面的工作，當(dāng)時(shí)使用的就是機(jī)器學(xué)習(xí)算法，當(dāng)時(shí)并沒有覺得有什么高大上的，因?yàn)槟莻€(gè)領(lǐng)域機(jī)器學(xué)習(xí)算法是非常普通和自然的事情。如今，經(jīng)過多年的發(fā)展，機(jī)器學(xué)習(xí)在圖像、語(yǔ)音和自然語(yǔ)言處理方面都有了更成熟的發(fā)展和應(yīng)用，但在很多傳統(tǒng)領(lǐng)域還處于比較初步的階段，交通領(lǐng)域就是其中之一。個(gè)中原因有以下兩點(diǎn)：

一方面，作為十分傳統(tǒng)的行業(yè)，交通領(lǐng)域擁有傳統(tǒng)的計(jì)算模型和幾年甚至十幾年的積累，AI模型對(duì)于傳統(tǒng)模型而言是一種顛覆、一種舍棄，它不是繼承式的發(fā)展，這種改革是需要很大勇氣的。
另一方面，傳統(tǒng)領(lǐng)域在大數(shù)據(jù)積累的意識(shí)上相對(duì)薄弱，而在數(shù)據(jù)相對(duì)不足的情況下，AI模型初始的效果未必能超過傳統(tǒng)模型。

但是，即便如此，我們還是要積極地?fù)肀I技術(shù)。以ETA為例，平均誤差當(dāng)然是越低越好。舉個(gè)例子，我們當(dāng)時(shí)使用傳統(tǒng)模型計(jì)算ETA，平均誤差（MAPE）差不多做到19.5%，并已經(jīng)到了瓶頸，很難再突破。而當(dāng)我們引入AI模型后，第一版上線后，平均誤差就有一個(gè)斷崖式的下降，直接到17%，到目前，我們的平均誤差基本可以控制在15.3%以內(nèi)。

AI模型為什么能取得更好的效果？

這個(gè)問題可以從多個(gè)維度解讀，例如AI有很嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)模型，有大量歷史數(shù)據(jù)等等。但作為一個(gè)“碼農(nóng)”，我覺得我應(yīng)該從代碼的角度來解讀一下。

AI，如何助力ETA計(jì)算更加智能化？

如上圖所示，上面的方框中是傳統(tǒng)計(jì)算模型中計(jì)算“軌跡轉(zhuǎn)向”的代碼，這部分代碼占整個(gè)代碼量的5%；下面的方框中是機(jī)器學(xué)習(xí)模型中訪問一顆決策樹的代碼，這部分代碼占整個(gè)代碼量的50%。

同樣是ETA計(jì)算，從代碼量上，機(jī)器學(xué)習(xí)模型是傳統(tǒng)模型代碼量的1/10，這個(gè)代碼量差距的背后有怎樣的邏輯呢？機(jī)器學(xué)習(xí)會(huì)通過大數(shù)據(jù)的訓(xùn)練，把一些程序邏輯轉(zhuǎn)化成配置邏輯。碼農(nóng)定律之一，就是“配置由于編碼”，如果我能夠通過配置去改變整個(gè)程序的邏輯，我就不會(huì)用編碼的方式去實(shí)現(xiàn)。

第二，機(jī)器學(xué)習(xí)會(huì)把線上的一些邏輯轉(zhuǎn)化成線下的訓(xùn)練，如果我在線下能夠?qū)崿F(xiàn)一種邏輯，我就不會(huì)在線上去完成，這也是作為碼農(nóng)良好的操守。AI通過這兩個(gè)轉(zhuǎn)化，遵守了碼農(nóng)定律，所以得到一個(gè)更好的結(jié)果。

意識(shí)上：要能夠量化一切

剛才說數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限，所以特征的提取、特征的使用，對(duì)于機(jī)器學(xué)習(xí)來說是非常重要的。

一般來說，這個(gè)過程會(huì)分三個(gè)步驟來操作：

第一步，對(duì)整個(gè)業(yè)務(wù)進(jìn)行屬性的劃分，可以劃分為物理屬性、實(shí)時(shí)屬性、挖掘?qū)傩院捅O(jiān)控屬性。我們以用戶畫像為例，在用戶畫像里，諸如用戶的年齡、性別、住址等，都屬于物理屬性，它是簡(jiǎn)單的、直接的、穩(wěn)定的；而諸如一個(gè)用戶過去一小時(shí)內(nèi)瀏覽的網(wǎng)頁(yè)內(nèi)容，就是實(shí)時(shí)屬性；用戶這些行為的日積月累，會(huì)生成歷史數(shù)據(jù)，對(duì)歷史數(shù)據(jù)的統(tǒng)計(jì)結(jié)果就是挖掘?qū)傩?；而?duì)一個(gè)服務(wù)進(jìn)行監(jiān)控，包括用戶量、訪問量等等，這就屬于監(jiān)控屬性。

第二步，把所有屬性進(jìn)行量化。還以用戶畫像為例，假設(shè)用戶畫像中有一個(gè)屬性叫“用戶的顏值”，我往這里一站，交給機(jī)器，我的顏值屬性設(shè)為高，機(jī)器會(huì)很蒙圈，因?yàn)樗恢馈邦佒蹈摺笔鞘裁匆馑?。但是如果換一個(gè)說法，比如我的顏值等于90，機(jī)器這時(shí)候會(huì)一臉鄙視，因?yàn)檫@個(gè)顏值的上限可能是500分。但是，不管是90分還是500分，數(shù)字化的東西使得機(jī)器能夠理解、能夠分析、能夠觀察。所以，這個(gè)前提非常重要，我們要把所有的屬性都量化成數(shù)字，量化之后的結(jié)果稱之為指標(biāo)。

第三步，要對(duì)指標(biāo)進(jìn)行分析，分析與業(yè)務(wù)目標(biāo)之間的關(guān)系。對(duì)于這部分操作有專門的一門課程，叫《數(shù)據(jù)分析》，我們把相關(guān)性高的指標(biāo)轉(zhuǎn)化成特征，用在我們的訓(xùn)練和服務(wù)中，對(duì)那些相關(guān)性比較弱的，會(huì)繼續(xù)進(jìn)行觀察。

為什么一定要去量化？

舉一個(gè)ETA將監(jiān)控指標(biāo)轉(zhuǎn)化成特征的例子。比如，ETA的計(jì)算很依賴于實(shí)時(shí)速度，但是實(shí)時(shí)速度是從路況中提取出來的，路況計(jì)算依賴于實(shí)時(shí)的數(shù)據(jù)源。所以，我們一開始對(duì)實(shí)時(shí)數(shù)據(jù)源是有一個(gè)監(jiān)控。

最初的監(jiān)控目標(biāo)不是為了ETA，是因?yàn)槲覀円O(jiān)控?cái)?shù)據(jù)源，如果它發(fā)生了問題，比如數(shù)據(jù)不穩(wěn)定，我們會(huì)通知數(shù)據(jù)提供商他這個(gè)數(shù)據(jù)有問題，讓他們趕緊解決，僅此而已。但是有一天，我們突然發(fā)現(xiàn)ETA的bad case跟我們的數(shù)據(jù)源監(jiān)控指標(biāo)有一定的關(guān)系，兩者之間的波動(dòng)情況有點(diǎn)相近，所以，我們就把這個(gè)指標(biāo)拿過來進(jìn)行相關(guān)性分析，加入到我們的特征里，上線后發(fā)現(xiàn)bad case率果然有所下降。也就是說，所有的屬性都要量化，量化以后不要輕易舍棄，因?yàn)槲覀儾恢朗裁磿r(shí)候某一個(gè)指標(biāo)就有用了，就會(huì)被我們采納。

關(guān)于目標(biāo)的優(yōu)化

一般情況下，AI的流程是這樣的：它會(huì)在一個(gè)大數(shù)據(jù)集上進(jìn)行訓(xùn)練，得到學(xué)習(xí)模型F，將提取的m個(gè)特征施加在F上，得到一個(gè)預(yù)測(cè)的結(jié)果y，y就是我們要持續(xù)優(yōu)化的目標(biāo)。

初始的時(shí)候，我們一般會(huì)定義一個(gè)可觀察、可解釋的簡(jiǎn)單目標(biāo)，隨著模型應(yīng)用的深入，我們?cè)俑鶕?jù)大量的bad case去分析和優(yōu)化這個(gè)目標(biāo)，最后，要得到一個(gè)合適的訓(xùn)練目標(biāo)。

這個(gè)訓(xùn)練目標(biāo)的要求是什么？

要盡量的簡(jiǎn)單，這個(gè)比較好理解；還有一個(gè)很難做到，就是要兼顧多目標(biāo)，因?yàn)樵趯?shí)踐過程中，我們發(fā)現(xiàn)我們對(duì)模型的要求并不是單一的，我們經(jīng)常既要準(zhǔn)確率（Precision）高，也要召回率（Recall）高，這就是多個(gè)目標(biāo)。比如在ETA中，我們希望它的平均誤差很小，同時(shí)也希望bad case很少，但是這些目標(biāo)之間有時(shí)候會(huì)有沖突，但有沖突不代表不可解，還是能夠通過優(yōu)化目標(biāo)來找到一些解決的辦法。

看一下ETA在目標(biāo)優(yōu)化方面的工作。ETA是預(yù)計(jì)到達(dá)時(shí)間，而ATA是用戶實(shí)際到達(dá)所用的時(shí)間。很好理解，我就拿ATA作為我的訓(xùn)練目標(biāo)，讓ETA盡可能跟它逼近。這個(gè)目標(biāo)非常簡(jiǎn)單、直接。

后來，我們發(fā)現(xiàn)了ETA的核心特征。因?yàn)槟阋愕氖菚r(shí)間，跟距離、跟速度必然有關(guān)系，而其核心特征跟它之間是一種乘積的關(guān)系。我們的模型是GBDT，它的結(jié)果是多棵樹的加和關(guān)系，加和還有可能出現(xiàn)一個(gè)負(fù)數(shù)，對(duì)ETA來說，你花費(fèi)的時(shí)間為負(fù)數(shù)肯定是不可接受。所以，我們做了一個(gè)對(duì)數(shù)計(jì)算，將乘積關(guān)系變成加和關(guān)系，同時(shí)，因?yàn)橛兄笖?shù)計(jì)算，也保證了不會(huì)出現(xiàn)負(fù)數(shù)。

之后，我們又發(fā)現(xiàn)在長(zhǎng)距離、長(zhǎng)時(shí)間這一塊出現(xiàn)bad case的比例相對(duì)較高，而長(zhǎng)距離和長(zhǎng)時(shí)間的軌跡在我們的訓(xùn)練樣本中比較長(zhǎng)尾，所以這是長(zhǎng)尾引起的bad case。在ETA計(jì)算中，長(zhǎng)時(shí)間和長(zhǎng)距離一般是同時(shí)出現(xiàn)的，即距離越長(zhǎng)，花費(fèi)的時(shí)間越長(zhǎng)，反過來說，這就保證了速度是相對(duì)穩(wěn)定的。所以我們改成以速度為訓(xùn)練目標(biāo)，長(zhǎng)尾現(xiàn)象就會(huì)減少很多。

在其他條件不變的情況下，通過對(duì)目標(biāo)的不斷優(yōu)化，我們既降低了平均誤差，也降低了bad case率，同時(shí)兼顧了多個(gè)目標(biāo)。

不要輕易舍棄數(shù)據(jù)

在我們的訓(xùn)練數(shù)據(jù)里，大量的數(shù)據(jù)肯定會(huì)存在噪音。一般來說，機(jī)器學(xué)習(xí)的第一步會(huì)做一個(gè)數(shù)據(jù)的預(yù)處理，對(duì)數(shù)據(jù)進(jìn)行清洗，把噪音數(shù)據(jù)過濾出來，直接拋棄，這個(gè)時(shí)候我們會(huì)發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)和我們的測(cè)試數(shù)據(jù)之間的分布不太一樣，容易產(chǎn)生過擬合的現(xiàn)象。對(duì)此，更好的一種辦法，是把這些噪音數(shù)據(jù)進(jìn)行修正，變廢為寶，重新利用起來，跟我們的測(cè)試數(shù)據(jù)盡量保持分布上的一致，也可以得到更好的效果。

舉一個(gè)ETA數(shù)據(jù)改造的例子。一個(gè)司機(jī)原本按正常軌跡行駛，到了終點(diǎn)位置的時(shí)候，他來回繞了很多圈，這其實(shí)是因?yàn)樗谡彝＼囄?。像這種case是日常中特別常見的，因?yàn)槟愕搅艘粋€(gè)目的地附近，就會(huì)來回尋找停車位，尤其在北京這種尋找停車位困難的情況下。

一開始，我們定義了一些噪音數(shù)據(jù)，遇到類似數(shù)據(jù)直接扔掉，在后續(xù)的訓(xùn)練過程中，我們發(fā)現(xiàn)跟實(shí)際的數(shù)據(jù)之間還是有一些差異。這種情況是比較常見的，這個(gè)數(shù)據(jù)被扔掉后，會(huì)導(dǎo)致整個(gè)訓(xùn)練數(shù)據(jù)的偏差比較大。所以，后來我們把這樣的噪音數(shù)據(jù)先挑出來，進(jìn)行一個(gè)截?cái)?，繞圈的部分拋棄，剩下部分提取真值，把軌跡加入到訓(xùn)練樣本中。

多模型

機(jī)器學(xué)習(xí)神奇的地方在于，你將一堆數(shù)據(jù)給它、一堆特征給它，它可以炒出一盤好菜。而困難的是，做了一些優(yōu)化以后，很難證明我在這方面做的事情有效，也很難說清楚到底哪個(gè)特征的優(yōu)化起到了更好的作用。所以，驗(yàn)證方面是挺費(fèi)勁的事情。

很多時(shí)候，我們會(huì)同時(shí)優(yōu)化多個(gè)特征，如果上線以后效果變得更差了，都不知道是哪個(gè)特征引起的，我們之前被這種情況坑過，因?yàn)榘l(fā)現(xiàn)上線以后結(jié)果變差了，但是線下每個(gè)訓(xùn)練的結(jié)果都很好，上線變差了以后沒有辦法解釋，只能先回滾，這對(duì)開發(fā)人員來說還是很受打擊的。后來，我們就采用雙模型的方式，我們同時(shí)運(yùn)行著兩個(gè)模型——新模型和老模型，兩個(gè)模型同時(shí)計(jì)算，遇到結(jié)果和預(yù)期不一致的時(shí)候，可以做diff（一種比較命令），很快能定位到問題。

當(dāng)然，并非所有特征的上線都需要走這樣一個(gè)流程，因?yàn)殚_銷比較大，同時(shí)要運(yùn)行兩套數(shù)據(jù)和兩套模型。目前，我們只是對(duì)一些比較重要的特征，或者是特別難以驗(yàn)證的特征進(jìn)行雙模型操作，如ETA的實(shí)時(shí)速度，本身它的真值就很難采集到，優(yōu)化的效果也特別難驗(yàn)證。對(duì)于這樣的一些特征，我們會(huì)采用雙模型的方式，同時(shí)兩套跑著，同時(shí)比較，有問題就比較好定位。

總結(jié)：

第一，我們要在態(tài)度上積極擁抱AI技術(shù)。AI模型對(duì)于傳統(tǒng)模型來說，大部分領(lǐng)域里都有一種碾壓式的效果，提升特別明顯，需要我們有勇氣去擁抱它。
第二，要有量化一切的意識(shí)。所有的數(shù)據(jù)都要量化，說不定哪一天可能就用上了。
第三，要不斷優(yōu)化我們的目標(biāo)。因?yàn)槟愕哪繕?biāo)偏了，最后的結(jié)果肯定也會(huì)有偏，所以需要不斷優(yōu)化和迭代訓(xùn)練目標(biāo)。
第四，數(shù)據(jù)如此重要，我們不能隨意拋棄。有些噪音數(shù)據(jù)也是有價(jià)值的。
第五，對(duì)于一些驗(yàn)證上的問題，即訓(xùn)練效果的分析，可以采用雙模型的方式來解決。

會(huì)后，江紅英告訴雷鋒網(wǎng)新智駕，對(duì)于自動(dòng)駕駛技術(shù)的研發(fā)，目前騰訊內(nèi)部有一個(gè)專門的“無人駕駛實(shí)驗(yàn)室”在進(jìn)行，而她帶領(lǐng)的團(tuán)隊(duì)目前所做出的努力，也隨時(shí)準(zhǔn)備為后續(xù)自動(dòng)駕駛模型的一些技術(shù)和應(yīng)用服務(wù)。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章