0
雷鋒網(wǎng) AI 科技評論按:熱熱鬧鬧的機(jī)器學(xué)習(xí)浪潮給學(xué)術(shù)研究和實(shí)際應(yīng)用都帶來了很多新意,似乎我們可以就這樣樂觀地乘著機(jī)器學(xué)習(xí)的列車駛向未來。記者、科幻小說作者 Cory Doctorow 近期的一篇文章就提出了一種角度新穎且有趣的質(zhì)疑。雷鋒網(wǎng) AI 科技評論編譯如下。
Cory Doctorow:
我成為一個現(xiàn)代科技的愛好者、宣揚(yáng)者已經(jīng)好幾十年了,我也閱讀過無數(shù)的發(fā)人深省的、影響深遠(yuǎn)的科技批評觀點(diǎn)。不過,這幾年的機(jī)器學(xué)習(xí)要遠(yuǎn)比其他的科技趨勢火熱許多。從大眾媒體報道、從企業(yè)宣傳上來看,許多曾經(jīng)在理想中的高科技產(chǎn)品、高科技生活方式,都會借助機(jī)器學(xué)習(xí)的力量來到我們身邊。
但在這所有美好的愿景背后,也有一些質(zhì)疑的聲音讓人反復(fù)咀嚼。蒙特利爾麥吉爾大學(xué)的 Molly Sauter 在 2017 年寫了一篇略微奇怪但富有詩意的文章《Instant Recall》,里面有這么一句「機(jī)器學(xué)習(xí)從本質(zhì)上來講是保守的」。
機(jī)器學(xué)習(xí)從本質(zhì)上來講是保守的,它沒法改變,它只能默認(rèn)未來和過去是一樣的。如果你給你的伴侶發(fā)消息時候用過「Hey darling」這個開頭,那下次你一打出來「Hey」,「darling」就會出現(xiàn)在自動補(bǔ)全列表的第一個位置上,即便這次你可能是要提分手的。如果你打的某個詞是你自己此前從未用過的,那么自動補(bǔ)全會根據(jù)所有用戶的輸入統(tǒng)計數(shù)據(jù),把最經(jīng)常出現(xiàn)的詞推薦給你??赡艽蠖鄶?shù)時候這不會造成什么問題,但是 2018 年 7 月我給看孩子的保姆(babysitter)發(fā)消息打到「Can you sit(帶)」的時候,它接下來推薦的自動補(bǔ)全是「on my face and」,這就非常糟糕了,我把這事發(fā)到網(wǎng)上以后還引起了不小的爭論。
這種保守性在每一個使用機(jī)器學(xué)習(xí)算法的推薦、推理系統(tǒng)里面都能看到:當(dāng)你在網(wǎng)上搜索「電冰箱」之后,算法就會給你打上「想買電冰箱」的標(biāo)簽,然后一直關(guān)注著這個「想買電冰箱」的身份的活動,在各種廣告位給你介紹各種電冰箱,即便你已經(jīng)買了也不會停止;或者在視頻網(wǎng)站純粹因為好奇搜索了某個冷門話題,大概了解了、覺得以后再不會看這個話題之后,它還是會反反復(fù)復(fù)給你推薦這個話題,因為需要「強(qiáng)化推薦你感興趣的內(nèi)容」;在社交平臺上關(guān)注一個人之后,它會給你推薦「相似的人」,即便你自己很明白你為什么沒關(guān)注他們。
不可否認(rèn),機(jī)器學(xué)習(xí)有很強(qiáng)的尋找關(guān)聯(lián)性的能力,比如機(jī)器學(xué)習(xí)可以自然地認(rèn)為「在很長一段時間里張三的通訊錄里都存了李四的電話號碼和家庭住址,所以他們肯定是好朋友」;但機(jī)器學(xué)習(xí)并不能學(xué)到因果關(guān)系,所以實(shí)際上更容易出現(xiàn)的事情是,張三的通訊錄里存了李四的電話號碼和家庭住址,這是因為張三在跟蹤、偷窺李四,然而 Facebook 掃描了張三的通訊錄以后,反而推薦李四把張三加為好友。
另外,機(jī)器學(xué)習(xí)也沒法提供可靠的推測意圖的工具——人類學(xué)的一條基礎(chǔ)定理就是,「如果沒有對話,那么意圖就是不可知的」。Cliff Geertz 在 1973 年的《Thick Description》文章里是這么說的,如果你在觀察某個人,但你不讓他知道你在觀察他、他也不知道你在觀察他,那你就分辨不出他到底是為了暗示什么而「擠眼」還是只是累了所以「眨眼」。
說到底,機(jī)器學(xué)習(xí)所能做的,是找到和它現(xiàn)在就能建模的東西類似的東西。機(jī)器學(xué)習(xí)系統(tǒng)很擅長找到和它們見過的車長得類似的車,也擅長找到和它們見過的人臉長得類似的人臉——這順便也用非常簡單的到底解釋了為什么面部識別系統(tǒng)對于白人的臉識別準(zhǔn)確率更高,就是因為往往是白人圈子設(shè)計的系統(tǒng)、組織收集的數(shù)據(jù),所以見白人的臉見得更多而已。
機(jī)器學(xué)習(xí)的有害之處就是從這樣的「保守」傾向里逐漸滲透出來的。如果你設(shè)計一個機(jī)器學(xué)習(xí)系統(tǒng)幫助警察預(yù)測他們應(yīng)該抓誰,系統(tǒng)肯定會建議抓「和已經(jīng)抓過的人類似的人」。人權(quán)數(shù)據(jù)分析組織的 Patrick Ball 是這樣說的:「給警察配備的預(yù)測系統(tǒng)預(yù)測不了犯罪,它只能預(yù)測警察會做什么」。
不過,警察根據(jù)自己的判斷決定逮捕誰,和警察看到系統(tǒng)預(yù)測了一個人然后去逮捕他,兩者也有一些區(qū)別。對不愿意了解其中細(xì)節(jié)的局外人來說,算法做出的決定更容易顯得公眾,畢竟「數(shù)學(xué)是沒有歧視的」、「數(shù)學(xué)是不會說謊的」。只可惜,機(jī)器學(xué)習(xí)里并不僅僅有數(shù)學(xué)而已,要說「算法能客觀地反應(yīng)社會真實(shí)需求」,倒不如說「算法能真實(shí)反應(yīng)設(shè)計它的人的觀念和習(xí)慣」。
英國有一個非醫(yī)療用藥分類的例子。David Nutt 是一位杰出的精神藥理學(xué)家,英國議會請他對非醫(yī)療用途的精神類藥品的危險性排一個序,方便政府制定對應(yīng)的藥品管理政策。David Nutt 組織了一群專家做了詳細(xì)的討論,他們排了三個順序出來:對使用者自己的危害的排序,對使用者的家庭的危害的排序,以及對社會整體的危害的排序。然后他對議會說,你只需要告訴我你最想保護(hù)哪一類,我就能給你一個準(zhǔn)確的排序。排序本身并不難,有很多基于實(shí)證的證據(jù)可以參考,得到準(zhǔn)確的結(jié)果;但「最想保護(hù)哪一類」是人類需要做的價值判斷,沒有「是否準(zhǔn)確」之分。
數(shù)據(jù)分析這件事由來已久,從第一種稅收的開始就需要分析數(shù)據(jù);基于數(shù)據(jù)的科學(xué)和工具研究也為我們帶來了許許多多的便利。但是指望不可靠的黑盒子在來告訴我們應(yīng)該要什么、應(yīng)該怎么做,就會在「理智」和「進(jìn)步」的表面之下,實(shí)際帶來更多的固定流程化處理、讓人文關(guān)懷消失。科學(xué)技術(shù)能做什么當(dāng)然重要,但更重要的是,它到底影響了誰、又是在誰的立場上做的這些決定。
via blog.lareviewofbooks.org,雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。