0
雷鋒網(wǎng) AI 科技評(píng)論按:隨著機(jī)器學(xué)習(xí)的發(fā)展和流行,有越來越多的領(lǐng)域開始嘗試借助機(jī)器學(xué)習(xí)的力量解決領(lǐng)域內(nèi)的原有問題。比如社會(huì)科學(xué)的問題現(xiàn)在就可以把機(jī)器學(xué)習(xí)作為工具,從而衍生出「社會(huì)計(jì)算學(xué)」。那么 社會(huì)計(jì)算學(xué)是否等于「計(jì)算機(jī)科學(xué)+社會(huì)數(shù)據(jù)」呢?這篇發(fā)表在 ACM 通訊 2018 年 3 月刊的文章就解析了其中的區(qū)別。
本文作者 Hanna Wallach 是微軟研究院的高級(jí)研究員,馬薩諸塞大學(xué)阿姆赫斯特分校的副教授。雷鋒網(wǎng) AI 科技評(píng)論全文編譯如下。
本文觀點(diǎn)是關(guān)于計(jì)算機(jī)科學(xué)和社會(huì)科學(xué)之間的差異,以及它們對(duì)計(jì)算社會(huì)學(xué)的影響。先說結(jié)論:重點(diǎn)點(diǎn)很簡單,盡管機(jī)器學(xué)習(xí)被大肆炒作,但它并不是一個(gè)一勞永逸的解決方案。如果我們要用機(jī)器學(xué)習(xí)并以負(fù)責(zé)任和道德的方式研究社會(huì)現(xiàn)象,我們?nèi)匀恍枰鐣?huì)科學(xué)家。
我是一名受訓(xùn)的機(jī)器學(xué)習(xí)研究員。我最近的工作與傳統(tǒng)的機(jī)器學(xué)習(xí)相差甚遠(yuǎn),可以說與之相反,我的側(cè)重點(diǎn)是社會(huì)計(jì)算學(xué)——使用數(shù)字化信息和數(shù)理統(tǒng)計(jì)方法來研究社會(huì)現(xiàn)象。
舉個(gè)例子,假如您想知道諸如亞馬遜或 Netflix 等網(wǎng)站上的活動(dòng)是來自于推薦還是來自于其他因素,你可以構(gòu)建一個(gè)統(tǒng)計(jì)模型來估計(jì)觀測數(shù)據(jù)之間的因果聯(lián)系,例如對(duì)于單個(gè)產(chǎn)品或者單個(gè)電影頁面來說,基于推薦的訪問次數(shù)、總的訪問次數(shù)都是如何隨時(shí)間變化的。
或者,假如你對(duì)于參議員在特定問題上的投票模式感興趣,想知道他們何時(shí)和為何偏離了他們所屬黨派和意識(shí)形態(tài)原本的期待。解決這個(gè)問題,你可以利用國會(huì)投票歷史和相應(yīng)的法案文本,對(duì)每個(gè)參議員基于事件的意識(shí)形態(tài)的調(diào)整進(jìn)行建模。
又或者,假設(shè)你想研究美國的教師聘用制度是否是反映系統(tǒng)社會(huì)不平等的層級(jí)的證據(jù)。您可以使用數(shù)千名終身職位教職員的職位來模擬大學(xué)之間聘用關(guān)系的隨時(shí)動(dòng)態(tài)。
意料之中,解決這些問題需要跨學(xué)科的方法,的確,社會(huì)計(jì)算學(xué)正是計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué)和社會(huì)科學(xué)的交叉點(diǎn)。
對(duì)我而言,從傳統(tǒng)的機(jī)器學(xué)習(xí)轉(zhuǎn)移到這個(gè)跨學(xué)科的空間意味著我需要在與機(jī)器學(xué)習(xí)相關(guān)的算法黑盒子之外進(jìn)行思考,而不是把注意力放在開發(fā)和使用機(jī)器學(xué)習(xí)方法對(duì)社會(huì)真實(shí)數(shù)據(jù)進(jìn)行分析中所涉及的機(jī)遇和挑戰(zhàn)上。
這個(gè)觀點(diǎn)反映了這些機(jī)遇和挑戰(zhàn)。在解釋機(jī)器學(xué)習(xí)應(yīng)用于社會(huì)科學(xué)與其應(yīng)用于其他領(lǐng)域的不同之處之前,我圍繞三點(diǎn)構(gòu)建了我的討論:目標(biāo),模型和數(shù)據(jù)。
當(dāng)我第一次開始從社會(huì)計(jì)算學(xué)工作時(shí),我一直在聽計(jì)算機(jī)科學(xué)家和社會(huì)科學(xué)家之間的談話,我不明白為什么會(huì)有「我搞不明白——這怎么研究呢?」這樣的對(duì)話。但后來當(dāng)我讀到加里·金和丹·霍普金斯這兩位政治科學(xué)家的這句話時(shí),我認(rèn)為,這才是抓住了兩種研究脫節(jié)的核心:「計(jì)算機(jī)科學(xué)家可能有興趣做大海撈針的事情,例如通過搜索顯示正確的網(wǎng)頁來展示研究結(jié)果,但社會(huì)科學(xué)家的關(guān)注點(diǎn)更多的在于描述大海撈針的特點(diǎn)。
換句話說,我一直聽到的對(duì)話是因?yàn)橛?jì)算機(jī)科學(xué)家和社會(huì)科學(xué)家通常追求的是兩種完全不同類別的目標(biāo)。
計(jì)算機(jī)科學(xué)家和社會(huì)科學(xué)家通常追求的目標(biāo)屬于兩個(gè)完全不同的類別。
第一類目標(biāo)是預(yù)測。預(yù)測是指使用觀察到的數(shù)據(jù)來推斷缺失的信息或未來的、尚未觀察到的數(shù)據(jù)。使用 King 和 Hopkins 的術(shù)語來說,這些是「找到針」的任務(wù)。一般來說,計(jì)算機(jī)科學(xué)家和決策者對(duì)他們最感興趣。果然,傳統(tǒng)的機(jī)器學(xué)習(xí)一直專注于預(yù)測任務(wù)——例如圖像分類,識(shí)別手寫體,以及玩象棋和圍棋等游戲。
第二類任務(wù)是解釋。這里的重點(diǎn)是「為什么」或「如何」的問題——換句話說,為觀察到的數(shù)據(jù)找到合理的解釋。這些解釋可以與已有的理論或先前的發(fā)現(xiàn)進(jìn)行比較,或者用于產(chǎn)生新的理論。因此解釋任務(wù)是「描述大海撈針」的任務(wù),一般來說,對(duì)它是最感興趣的社會(huì)科學(xué)家。因此,社會(huì)科學(xué)家受過訓(xùn)練,可以用清晰的、可測試的假設(shè)來構(gòu)建細(xì)致的研究問題。例如,女性是否一直被排除在工作圈的長期戰(zhàn)略規(guī)劃之外?如果政府組織知道他們的同行組織已經(jīng)遵守公共記錄要求,他們是否更有可能一樣遵守?
這些不同的目標(biāo)——預(yù)測和解釋——會(huì)導(dǎo)致非常不同的建模方法。在許多預(yù)測任務(wù)中,重點(diǎn)不在于因果關(guān)系,而在于預(yù)測準(zhǔn)確性。換句話說,我們不關(guān)心為什么一個(gè)模型能夠做出好的預(yù)測;我們只關(guān)心它怎么做。因此,預(yù)測模型很少需要解釋,這意味著它們的結(jié)構(gòu)幾乎沒有限制,它們可以是由大量數(shù)據(jù)訓(xùn)練而來的任意復(fù)雜的黑盒子。例如,一個(gè)「深度」神經(jīng)網(wǎng)絡(luò) GoogLeNet 使用 22 個(gè)圖層和數(shù)百萬個(gè)參數(shù)將圖像分類為 1000 個(gè)不同的類別。
相反,解釋任務(wù)基本上與因果關(guān)系有關(guān),其目標(biāo)是使用觀察到的數(shù)據(jù)來提供支持或反對(duì)因果關(guān)系的依據(jù)。因此,解釋模型必須是可說明的。它們的結(jié)構(gòu)很容易地將研究者感興趣的點(diǎn)與世界現(xiàn)有的理論知識(shí)聯(lián)系起來。因此,許多社會(huì)科學(xué)家利用貝葉斯統(tǒng)計(jì)模型——一種表達(dá)先驗(yàn)概率,不確定性和明確建模假設(shè)的方法。
換言之,預(yù)測模型通常旨在替代人類解釋或推理,而解釋模型旨在告知或指導(dǎo)人類推理。
除了追求不同的目標(biāo),計(jì)算機(jī)科學(xué)家和社會(huì)科學(xué)家通常還會(huì)處理不同類型的數(shù)據(jù)。計(jì)算機(jī)科學(xué)家通常與大規(guī)模的數(shù)字化數(shù)據(jù)集打交道,這些數(shù)據(jù)集除了用于「機(jī)器學(xué)習(xí)研究」這件事自身之外,別無它用。相反,社會(huì)科學(xué)家通常使用策劃收集的數(shù)據(jù)來回答具體問題。由于這個(gè)過程需要大量人工勞動(dòng)力,所以這些數(shù)據(jù)集一般都是小規(guī)模的。
但是,這也是社會(huì)計(jì)算學(xué)背后的推動(dòng)力之一——由于互聯(lián)網(wǎng),我們現(xiàn)在有各種機(jī)會(huì)獲得以前沒法學(xué)習(xí)的記錄各種社會(huì)現(xiàn)象的大規(guī)模數(shù)字化數(shù)據(jù)集。例如,我的合作者 Bruce Desmarais 和我想對(duì)地方政府通信網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的研究,重點(diǎn)關(guān)注當(dāng)?shù)卣涡袨檎呷绾闻c大家進(jìn)行溝通。事實(shí)證明,美國大多數(shù)州都有模仿聯(lián)邦信息自由法的陽光法。這些法律要求地方政府歸檔文本記錄(包括許多州的電子郵件),并根據(jù)要求向公眾披露。
因此,Desmarais 和我向北卡羅來納的100個(gè)縣政府發(fā)出了需要提供公共記錄的請(qǐng)求。要求每個(gè)縣的部門領(lǐng)導(dǎo)提供隨機(jī)選擇的三個(gè)月時(shí)間內(nèi)發(fā)送和接收到的所有非私人電子郵件信息。出于好奇,我們也決定借此機(jī)會(huì)進(jìn)行現(xiàn)場隨機(jī)試驗(yàn)來測試,當(dāng)縣政府知道了和他們同等級(jí)的政府成員在履行了對(duì)于公眾信息的請(qǐng)問之后是否更樂意去履行同樣的請(qǐng)求。
就平均而言,我們發(fā)現(xiàn)那些被告知他們的同行已經(jīng)履行過的那些縣會(huì)花更少的時(shí)間來答復(fù)我們的請(qǐng)求,并且更有可能完成它。最終,我們收到了來自25個(gè)不同縣政府的50多萬封電子郵件。
很明顯,像這樣的新機(jī)會(huì)是極好的。但這些機(jī)會(huì)也帶來了新的挑戰(zhàn)。其中最引人注目的是,人們很容易說,「為什么不把這些大規(guī)模的社會(huì)數(shù)據(jù)集與計(jì)算機(jī)科學(xué)家提出的強(qiáng)大的預(yù)測模型結(jié)合在一起呢?」。然而,與傳統(tǒng)的計(jì)算機(jī)科學(xué)家使用的數(shù)據(jù)集不同,這些新的數(shù)據(jù)集通常是關(guān)于人們?nèi)粘I畹摹麄兊膶傩?,他們的行為,以及他們的互?dòng)。這些數(shù)據(jù)集不僅記錄了大規(guī)模的社會(huì)現(xiàn)象,而且通常是基于個(gè)人顆粒度級(jí)的和秒到秒的行為。因此,他們提出了一些關(guān)于隱私、公平和責(zé)任的復(fù)雜倫理問題。
從媒體上可以清楚地看到,機(jī)器學(xué)習(xí)最讓人害怕的一件事是在社會(huì)環(huán)境中使用黑盒預(yù)測模型。在這種情況下,有可能弊大于利??梢源_信的是這些模型會(huì)增強(qiáng)現(xiàn)有的結(jié)構(gòu)性偏見,并且邊緣化歷史地位處于弱勢的群體。
對(duì)我來說,這是一條重要的前進(jìn)道路。顯然,機(jī)器學(xué)習(xí)是非常有用的,尤其是機(jī)器學(xué)習(xí)對(duì)于社會(huì)科學(xué)來說是很有用的。但是我們必須將我們對(duì)待用于社會(huì)科學(xué)的機(jī)器學(xué)習(xí)的方式和用于類似手寫識(shí)別或者下象棋的機(jī)器學(xué)習(xí)的方式區(qū)別開來。我們不能只把機(jī)器學(xué)習(xí)方法應(yīng)用到黑盒里,那樣的話社會(huì)計(jì)算科學(xué)就只是計(jì)算機(jī)科學(xué)和社會(huì)數(shù)據(jù)的疊加了。我們需要透明度。我們需要區(qū)分解釋能力——甚至在預(yù)測環(huán)境中。我們需要進(jìn)行嚴(yán)格的、詳細(xì)的錯(cuò)誤分析。我們需要質(zhì)疑。但是,最重要的是,我們需要與社會(huì)科學(xué)家合作,以了解我們的建模決策背后的倫理意義和影響。
via Communications of the ACM, Vol. 61 No. 3, Pages 42-44,雷鋒網(wǎng) AI 科技評(píng)論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。