7
本文作者: 新智元 | 2016-02-20 17:34 |
按:本文來自arstechnica,作者Christian Grothoff J.M. Porup,由新智元原創(chuàng)翻譯。
[導讀]從2004年至今,美軍無人機的轟炸已經在巴基斯坦的某個地區(qū)殺死了2500~4000人,其中絕大多數(shù)死者都被美國政府歸類為“極端分子”。轟炸對象的選擇背后,很可能是美國天網計劃,采用機器學習算法對5500完民眾進行打分。但本文作者Christian Grothoff 和 J.M. Porup 認為,這種算法會帶來很大的誤報率,而0.18%的誤報率意味著99000名無辜民眾被錯誤地標記為“恐怖分子”。在這些死亡的人數(shù)中,又有多少是無辜的民眾?
作者Christian Grothoff在法國國家信息與自動化研究所(Inria)領導一支研究團隊。他從UCLA獲得了計算機科學博士學位。他也以自由記者的身份進行科技和國家安全方面的報道。
J. M. Porup是一位網絡安全方面的自由記者,居住在加拿大多倫多。當他死后,他的墓志銘將會寫上“承擔違約責任”幾個字。他在Twitter上的賬號是@toholdaquill。
全文如下:
專家表示,這種“樂觀到可笑”的機器學習算法是“徹頭徹尾的胡說八道”。
一架MQ-9收割者偵察機停在停機坪上。
在2014年,同時負責領導美國中情局(CIA)和國安局(NSA)的主管人宣布,“我們根據(jù)元數(shù)據(jù)來殺人(we kill people based on metadata)”?,F(xiàn)在,重新翻看先前披露的斯諾登檔案——被殺害的人中有許多可能都是無辜的。
去年,Intercept披露了一些詳細描述NSA“天網”計劃的文件。從這些文件中可以得知,“天網”涉及到通過巴基斯坦的移動通信網絡對民眾實行監(jiān)控,隨后使用機器學習算法,基于5500萬民眾的蜂窩網絡元數(shù)據(jù),嘗試著為其中每一個人是否是一名恐怖分子的可能性打分。
先前在戰(zhàn)犯法庭開庭前給出過專家證詞的Patrick Ball——他是一位數(shù)據(jù)科學家,也是人權數(shù)據(jù)分析組織的研究主管——用“樂觀得可笑”和“徹頭徹尾的胡說八道”來形容NSA的這個方法。Ball告訴我們,NSA在訓練“天網”用于分析蜂窩元數(shù)據(jù)的機器學習算法上的一個瑕疵,讓它的結果在科學上是不可靠的。
據(jù)新聞調查局(Bureau of Investigative Journalism)所言,從2004年至今,美軍無人機的轟炸已經在巴基斯坦的某個地區(qū)殺死了2500~4000人,其中絕大多數(shù)死者都被美國政府歸類為“極端分子”。鑒于有一份“天網”PPT的歸檔時間寫著“20070108”,這種機器學習程序可能早在2007年就已經開始了研發(fā)。
隨后數(shù)年,巴基斯坦可能有數(shù)以千計的無辜民眾都被這個“在科學上不可靠”的算法錯誤地標記為恐怖分子,讓他們不幸身亡。
“天網”的工作方式就像一個現(xiàn)代典型的大數(shù)據(jù)業(yè)務應用。這個程序收集來元數(shù)據(jù)、將它們儲存在NSA的云服務器上,提取相關信息,然后應用機器學習的方法來辨別執(zhí)行既定行動的線索。除了不像商業(yè)應用那樣試圖向目標人群兜售某樣東西之外,這種活動——考慮到美國政府在巴基斯坦的整體業(yè)務重心——可能也涉及到美國政府的另一個機構,CIA或者軍方,通過掠食者無人機和地面暗殺小隊(death squads)來執(zhí)行他們的“尋覓——修正——收工(Find-Fix-Finish)”策略。
從GSM的元數(shù)據(jù)中,我們可以測量每個被選中的人的生活模式、社交網絡、以及出行習慣等方面。
除了要處理記錄下的蜂窩手機通話數(shù)據(jù)(所謂的“DNR”,也就是被叫號碼識別數(shù)據(jù),包括通話時間、通話長度、誰呼叫誰等數(shù)據(jù)),“天網”也收集用戶的位置信息,建立詳細的出行檔案。關閉手機則被當做是試圖逃避監(jiān)控的跡象而受到“天網”的標記。天真地相信更換SIM卡就能防止被追蹤、并且這么做了的人,也會受到“天網”的標記(燒入手機的ESN、MEID或是IMEI會讓手機即使換了SIM卡也會被追蹤痕跡)。
對海量的元數(shù)據(jù)進行出行模式、基于行為的分析、以及其他“補充內容”的分析,以此判斷“恐怖分子程度(terroristiness)”。
幻燈片稱,即使是更換手機也會被探測到并受到標記。這種探測,我們只能猜測(因為幻燈片上沒有對這一點進行詳細介紹),可能是基于其他元數(shù)據(jù)(比如現(xiàn)實世界中的用戶位置、社交網絡等)不變的基礎上的。
有了完整的元數(shù)據(jù)集,“天網”就能拼湊出一個人典型的日常軌跡——和誰一起出行、有哪些共同聯(lián)系人、和朋友們一起通宵、去其他國家旅行或是永久地搬離了??傮w而言,這些幻燈片顯示,NSA的機器學習算法使用超過80種不同的屬性來為人們的“恐怖分子程度”打分。
幻燈片告訴我們,這個程序的假設是,恐怖分子與普通居民在其中一些屬性的行為上有顯著的區(qū)別。然而,在Intercept去年的披露中可以清楚地看到,被這個機器學習程序打出最高分的是Ahmad Zaidan,半島電視臺在伊斯蘭堡的分社社長。
得到最高評分的人是PROB AHMED ZAIDAN,他去過Peshawar和Lahore。他長期擔任半島電視臺在伊斯蘭堡的分社社長。
據(jù)Intercept報道,Zaidan為了采訪叛軍、報道新聞,經常前往有恐怖活動的地區(qū)。不過,這種機器學習算法背后的NSA工程師們不但沒有質疑產生這種可笑結果的機器學習方法,反而在他們內部的報告會中鼓吹Zaidan的例子證明了“天網”的勝利,其中一張幻燈片上將Zaidan標為“基地組織成員”。
|給機器輸入數(shù)據(jù)
訓練機器學習算法,就像是在訓練一個貝葉斯垃圾郵件過濾器:你將已知的垃圾郵件和已知的非垃圾郵件輸入給它。從這些“確定事實(ground truths)”中,算法學習怎樣正確地過濾垃圾郵件。
同樣地,“天網”程序的一塊關鍵部分是將“已知的恐怖分子”數(shù)據(jù)輸入給機器學習算法,以此來教會算法探測相似的人群。
問題是,能輸入給算法用來學習的“已知的恐怖分子”數(shù)量較少,而就算NSA就這個問題發(fā)布一份調查收集數(shù)據(jù),真正的恐怖分子們也不可能回答。NSA內部文檔顯示,“天網”使用“已知的聯(lián)絡員”數(shù)據(jù)作為確定事實,默認假定其他人都是無辜的。
巴基斯坦有大約1.92億人口,到2012年底時——也是工作人員作“天網”報告的時候——蜂窩手機持有量在1.2億左右。NSA分析了5500萬移動手機的數(shù)據(jù)。鑒于有5500萬人的數(shù)據(jù)和80個要考慮的變量,人工處理數(shù)據(jù)、探索其中的意義顯而易見是不可能的。所以,就像其它任何一個大數(shù)據(jù)應用一樣,NSA用機器學習來幫助——或者也許是替代,幻燈片上沒有說到——人類,進行推理和判斷。
“天網”的分類算法分析了元數(shù)據(jù)和確定事實數(shù)據(jù),然后基于元數(shù)據(jù)為其中的每一個人都生成了一個分數(shù)。這個做法的目標是,為恐怖分子生成較高的分數(shù),為剩下的無辜人群生成較低的分數(shù)。
“天網”生成的出行報告樣例。
為了做到這一點,“天網”算法使用的是隨機森林算法,這種算法被經常用在這類大數(shù)據(jù)應用上。事實上,據(jù)上周新披露的斯諾登文檔的說法,英國的政府通信總部(GCHQ)似乎也用到了相似的機器學習方法?!斑@看上去像是,當說到讓機器學習算法做出選擇的技術時,就是隨機決策森林,”倫敦大學學院(UCL)安全與隱私工程副教授George Danezis在一篇博客中對披露的文檔這樣分析道。
隨機森林法在訓練集數(shù)據(jù)中隨機選擇子集來創(chuàng)造決策“樹”的“森林”,隨后通過對這些樹的預測做平均來將結果綜合到一起。“天網”的算法從每個手機用戶身上都提取80個屬性,然后為他們生成一個分數(shù)——就像一個垃圾郵件過濾器。
做完這些以后,“天網”要選擇一個閾值——超過這個值的手機用戶會被分類為“恐怖分子”?;脽羝姓故玖水旈撝当辉O定為50%漏報率(false negative)時的評估結果。這個時候,原本將會被分類為“恐怖分子”的人中有一半就被分到了無辜民眾的類別,以此讓誤報率——無辜民眾被錯誤地歸類成“恐怖分子”——盡可能的低。
|誤報
當然,我們不能肯定的是,在這次展示中使用的50%漏報率,是否就是在生成最終的獵殺名單時使用的閾值。不管怎么樣,如何處理無辜的誤報情況仍然是一個問題。
“他們這樣做的原因,”Ball解釋說,“是因為漏報越少,誤報就肯定越多。這是不對等的:有那么多的正確拒斥(true negative),如果降低閥值以減少漏報1個人,這就將增加數(shù)以千計人的誤報。所以有這樣的決策?!?/p>
統(tǒng)計算法能夠在誤報率很低的情況下找出聯(lián)絡員(courier),如果能允許我們錯失其中的半數(shù)人。
一張NSA的幻燈片自夸道,“統(tǒng)計算法能夠在誤報率很低的情況下找出聯(lián)絡員(courier),如果能允許我們錯失其中的半數(shù)人?!?/p>
但是,NSA所謂的“很低”,到底是多低?
Ball告訴我們,問題在于,NSA是如何通過確定事實來訓練算法的。
NSA將已知的7個恐怖分子的數(shù)據(jù)放入隨機選擇的10萬人的數(shù)據(jù)子集(通過他們手機上的MSIDN/MSI來辨別)中,以此來評估“天網”程序。他們向學習算法中輸入其中6個恐怖分子的數(shù)據(jù)進行訓練,然后讓天網程序找出第7個恐怖分子。上面那張幻燈片展示了誤報的概率。
“首先,能用來訓練和測試模型的‘已知的恐怖分子’數(shù)量非常少,”Ball說道,“如果他們測試模型時使用的記錄與訓練模型時使用的一樣,那么他們對擬合性的評估就是徹頭徹尾的胡說八道。通常的做法是,一開始就從數(shù)據(jù)集中分離出一部分數(shù)據(jù)、不參與訓練過程,這樣的話測試時用到的記錄就是這個模型從未見過的了。如果沒有這一步,他們對分類效果的評估就樂觀到可笑了?!?nbsp;
這么說是因為,10萬名居民是隨機選擇出來的,而7名恐怖分子則來自于一個已知的小群體。隨機選擇出不到總體的0.1%的迷你數(shù)據(jù)子集,那么居民們的社交圖譜密度就會大幅降低,但是“恐怖分子”群體內部的關聯(lián)度仍然很高??茖W上可靠的統(tǒng)計分析會要求NSA在隨機選擇子集之前就將恐怖分子混入普通居民的數(shù)據(jù)集中——但是由于恐怖分子的數(shù)量過少,這沒有實際操作意義。
這可能聽起來僅僅是一個學術問題,但是,Ball說道,這實際上高度傷害了結果的質量,并最終傷害了將從人群中預測出恐怖分子并將之暗殺的準確程度。在這種情況下,進行質量評估是尤為重要的,因為我們知道隨機森林法會過擬合它的訓練集,產生過度樂觀的結果。因此NSA的分析并不能很好地展現(xiàn)出這個方法質量如何。
在5500萬人中,0.18%的誤報率意味著99000名無辜民眾被錯誤地標記為“恐怖分子”。
如果能夠允許漏報的人(真正的“恐怖分子”)存活下來一半,那么NSA 0.18%的誤報率依然意味著成千上萬的無辜者被錯誤地分類為“恐怖分子”,并可能為他們帶來死亡的命運。即便是NSA最樂觀的結果——0.008%的誤報概率——也仍然意味著許多無辜民眾的死亡。
“誤報率的那張幻燈片上,注意最后一行,寫著‘+固定的選擇器(Anchory Selectors)’,”Danezis對我們說,“這是關鍵,而具體的數(shù)字卻沒有報道……如果你對5500萬人口應用0.18%的誤報率,你實際上可能會殺害成千上萬的無辜民眾(5500萬的0.18%是99000)。然而,如果你是在一個你已經預測是恐怖主義盛行的群體上應用這個誤報率——因為,比如說他們位于一群恐怖分子的兩跳鄰居關系(two-hop neighbourhood)之內——那么你殺死的無辜民眾會少一些。
除于明確反對“殺死多少無辜者是可以被接受的”這個話題,這也假定了一個前提:有許多恐怖分子需要被識別出來?!拔覀冎?,在一個群體中,‘真正的恐怖分子’的比例是非常小的,”Ball指出,“正如Cory說的那樣,如果這個前提不是正確的,那么我們都已經(被他們殺)死了。所以,很小的誤報率也會讓很多人被錯誤地認為是恐怖分子?!?nbsp;
“更重要的一點是,”Ball補充道,“這個模型完全忽略了‘真正的恐怖分子’中那些與用來訓練模型的‘真正的恐怖分子’在統(tǒng)計上表現(xiàn)極為不同的家伙?!?/p>
0.008%的誤報率對于傳統(tǒng)的商業(yè)應用而言是非常非常低的。當出錯的結果是把廣告投放到錯誤的人身上、或是向某人錯誤地收取高昂的會員價時,這個誤報率是可以接受的。然而,即使是0.008%的巴基斯坦人口,也意味著有15000人可能會被誤判為恐怖分子并成為軍隊的打擊目標——更不用說無意中被卷入暗殺的路人,或者首先來到現(xiàn)場的先遣急救員(first responders)了。
安全專家Bruce Schneier表示同意?!按髷?shù)據(jù)在政府層面的使用和企業(yè)層面的使用在本質上就不同,”他告訴我們,“對精確度的要求意味著同一種技術可能不再適用。如果Google的應用出了錯,人們會看到不想買的汽車的廣告。而如果政府的應用出了錯,他們就會殺害無辜者。”
日內瓦公約禁止殺害平民,美國是簽約國之一。然而,關于天網程序的許多方面仍然是未知的。例如,天網是一個閉環(huán)系統(tǒng)嗎,或者說,對于它根據(jù)元數(shù)據(jù)篩選出的恐怖分子用戶,分析師是否會在暗殺實行前審查每一個用戶的檔案?是否有在致力于抓捕這些“恐怖分子”嫌疑人、對他們開庭審判?鑒于生成獵殺名單的機器學習算法有明顯缺陷,美國政府如何要確保它不會殺害無辜的人?
“對于使用天網是否是一種戰(zhàn)爭罪行這件事,我尊重律師的看法,”Ball說道,“這是壞的科學,該死的這毫無疑問,因為分類在本質上就是概率性的。如果你要判處一個人死刑,通常我們有一個‘超出合理懷疑’的標準,這和你談論分數(shù)接近“可能的恐怖分子”的那些人,完全就不是一回事。而這假定了分類器處在篩選恐怖分子的流程的第一階段——我很懷疑這樣的設置,因為,很簡單,我們沒有足夠的“已知的恐怖分子”的例子,來讓隨機森林為它們生成一個不錯的模型?!?nbsp;
遭泄露的NSA幻燈片提供了強有力的證據(jù),表明有數(shù)以千計的無辜民眾被貼上了恐怖分子的標簽。被貼上標簽以后會發(fā)生什么,我們就不知道了。我們不了解全貌,NSA也不怎么可能會幫我們填補這個空白。(我們曾經多次試圖從NSA那里獲得關于這個問題的評論,但直到這篇文章刊發(fā)前它都沒有給出回應)
算法正越來越多地統(tǒng)治著我們的生活。從運用“天網”的邏輯搜尋巴基斯坦的“恐怖分子”,到運用相似的方法在國內搜尋“毒販”、“抗議者”或者只是對政府持有異議的人士,只需要邁出小小的一步?!盎谠獢?shù)據(jù)”來殺人,正如Hayden說的那樣,當它發(fā)生在遙遠的土地上的時候是很容易被人忽略的。但當天網應用在我們身上的時候會發(fā)生什么——如果它現(xiàn)在還沒有的話?
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。