保守的機器學習如何拯救日新月異的我們

本文作者：楊曉凡

2020-01-27 16:32

導語：再多的數(shù)據(jù)也解決不了的那些問題

保守的機器學習如何拯救日新月異的我們

雷鋒網(wǎng) AI 科技評論按：熱熱鬧鬧的機器學習浪潮給學術(shù)研究和實際應(yīng)用都帶來了很多新意，似乎我們可以就這樣樂觀地乘著機器學習的列車駛向未來。記者、科幻小說作者 Cory Doctorow 近期的一篇文章就提出了一種角度新穎且有趣的質(zhì)疑。雷鋒網(wǎng) AI 科技評論編譯如下。

Cory Doctorow：

我成為一個現(xiàn)代科技的愛好者、宣揚者已經(jīng)好幾十年了，我也閱讀過無數(shù)的發(fā)人深省的、影響深遠的科技批評觀點。不過，這幾年的機器學習要遠比其他的科技趨勢火熱許多。從大眾媒體報道、從企業(yè)宣傳上來看，許多曾經(jīng)在理想中的高科技產(chǎn)品、高科技生活方式，都會借助機器學習的力量來到我們身邊。

但在這所有美好的愿景背后，也有一些質(zhì)疑的聲音讓人反復咀嚼。蒙特利爾麥吉爾大學的 Molly Sauter 在 2017 年寫了一篇略微奇怪但富有詩意的文章《Instant Recall》，里面有這么一句「機器學習從本質(zhì)上來講是保守的」。

機器學習從本質(zhì)上來講是保守的，它沒法改變，它只能默認未來和過去是一樣的。如果你給你的伴侶發(fā)消息時候用過「Hey darling」這個開頭，那下次你一打出來「Hey」，「darling」就會出現(xiàn)在自動補全列表的第一個位置上，即便這次你可能是要提分手的。如果你打的某個詞是你自己此前從未用過的，那么自動補全會根據(jù)所有用戶的輸入統(tǒng)計數(shù)據(jù)，把最經(jīng)常出現(xiàn)的詞推薦給你。可能大多數(shù)時候這不會造成什么問題，但是 2018 年 7 月我給看孩子的保姆（babysitter）發(fā)消息打到「Can you sit（帶）」的時候，它接下來推薦的自動補全是「on my face and」，這就非常糟糕了，我把這事發(fā)到網(wǎng)上以后還引起了不小的爭論。

這種保守性在每一個使用機器學習算法的推薦、推理系統(tǒng)里面都能看到：當你在網(wǎng)上搜索「電冰箱」之后，算法就會給你打上「想買電冰箱」的標簽，然后一直關(guān)注著這個「想買電冰箱」的身份的活動，在各種廣告位給你介紹各種電冰箱，即便你已經(jīng)買了也不會停止；或者在視頻網(wǎng)站純粹因為好奇搜索了某個冷門話題，大概了解了、覺得以后再不會看這個話題之后，它還是會反反復復給你推薦這個話題，因為需要「強化推薦你感興趣的內(nèi)容」；在社交平臺上關(guān)注一個人之后，它會給你推薦「相似的人」，即便你自己很明白你為什么沒關(guān)注他們。

不可否認，機器學習有很強的尋找關(guān)聯(lián)性的能力，比如機器學習可以自然地認為「在很長一段時間里張三的通訊錄里都存了李四的電話號碼和家庭住址，所以他們肯定是好朋友」；但機器學習并不能學到因果關(guān)系，所以實際上更容易出現(xiàn)的事情是，張三的通訊錄里存了李四的電話號碼和家庭住址，這是因為張三在跟蹤、偷窺李四，然而 Facebook 掃描了張三的通訊錄以后，反而推薦李四把張三加為好友。

另外，機器學習也沒法提供可靠的推測意圖的工具——人類學的一條基礎(chǔ)定理就是，「如果沒有對話，那么意圖就是不可知的」。Cliff Geertz 在 1973 年的《Thick Description》文章里是這么說的，如果你在觀察某個人，但你不讓他知道你在觀察他、他也不知道你在觀察他，那你就分辨不出他到底是為了暗示什么而「擠眼」還是只是累了所以「眨眼」。

說到底，機器學習所能做的，是找到和它現(xiàn)在就能建模的東西類似的東西。機器學習系統(tǒng)很擅長找到和它們見過的車長得類似的車，也擅長找到和它們見過的人臉長得類似的人臉——這順便也用非常簡單的到底解釋了為什么面部識別系統(tǒng)對于白人的臉識別準確率更高，就是因為往往是白人圈子設(shè)計的系統(tǒng)、組織收集的數(shù)據(jù)，所以見白人的臉見得更多而已。

機器學習的有害之處就是從這樣的「保守」傾向里逐漸滲透出來的。如果你設(shè)計一個機器學習系統(tǒng)幫助警察預測他們應(yīng)該抓誰，系統(tǒng)肯定會建議抓「和已經(jīng)抓過的人類似的人」。人權(quán)數(shù)據(jù)分析組織的 Patrick Ball 是這樣說的：「給警察配備的預測系統(tǒng)預測不了犯罪，它只能預測警察會做什么」。

不過，警察根據(jù)自己的判斷決定逮捕誰，和警察看到系統(tǒng)預測了一個人然后去逮捕他，兩者也有一些區(qū)別。對不愿意了解其中細節(jié)的局外人來說，算法做出的決定更容易顯得公眾，畢竟「數(shù)學是沒有歧視的」、「數(shù)學是不會說謊的」。只可惜，機器學習里并不僅僅有數(shù)學而已，要說「算法能客觀地反應(yīng)社會真實需求」，倒不如說「算法能真實反應(yīng)設(shè)計它的人的觀念和習慣」。

英國有一個非醫(yī)療用藥分類的例子。David Nutt 是一位杰出的精神藥理學家，英國議會請他對非醫(yī)療用途的精神類藥品的危險性排一個序，方便政府制定對應(yīng)的藥品管理政策。David Nutt 組織了一群專家做了詳細的討論，他們排了三個順序出來：對使用者自己的危害的排序，對使用者的家庭的危害的排序，以及對社會整體的危害的排序。然后他對議會說，你只需要告訴我你最想保護哪一類，我就能給你一個準確的排序。排序本身并不難，有很多基于實證的證據(jù)可以參考，得到準確的結(jié)果；但「最想保護哪一類」是人類需要做的價值判斷，沒有「是否準確」之分。

數(shù)據(jù)分析這件事由來已久，從第一種稅收的開始就需要分析數(shù)據(jù)；基于數(shù)據(jù)的科學和工具研究也為我們帶來了許許多多的便利。但是指望不可靠的黑盒子在來告訴我們應(yīng)該要什么、應(yīng)該怎么做，就會在「理智」和「進步」的表面之下，實際帶來更多的固定流程化處理、讓人文關(guān)懷消失?？茖W技術(shù)能做什么當然重要，但更重要的是，它到底影響了誰、又是在誰的立場上做的這些決定。

via blog.lareviewofbooks.org，雷鋒網(wǎng) AI 科技評論編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

楊曉凡

讀論文為生

日常笑點滴，學術(shù)死腦筋

發(fā)私信

當月熱門文章