1
雷鋒網(wǎng) AI 科技評論按:上周,斯坦福一篇識別同性戀的論文引起了軒然大波。
這是一篇用深度神經(jīng)網(wǎng)絡(luò)識別同性戀的論文,即將要發(fā)表在美國心理學(xué)會的「人格與社會心理學(xué)」期刊上,然后上周突然火了起來。
面前有一張同性戀和一張異性戀的照片,論文中的方法可以識別人臉的面部特征,然后從兩張里挑出更可能是同性戀的那一張(即AUC)。這樣挑男性照片的正確率有81%,挑女性照片的正確率則有71%。相比之下人的表現(xiàn)只有61%和54%,比從兩張里隨便選一個(50%正確率)好不了多少。
假如每個人有多張照片,挑出同性戀的正確率還能繼續(xù)提升:在每個人5張圖像的情況下,從兩個人里挑出同性戀的正確率可以繼續(xù)提升到男性91%和女性83%。
(注意,上面所提及的這幾個數(shù)字都是AUC,和“識別正確率”不相等,后文有詳細(xì)解釋)
如此明確的結(jié)果馬上引起了國內(nèi)外媒體和民眾的熱烈討論。除了表示震驚和擔(dān)憂可能引起的隱私問題,還有人就是不喜歡這個結(jié)果,給作者們發(fā)去了人身威脅的郵件。作者也非常耐心地寫了一封公開信來一一答復(fù)各種意見。不過在細(xì)說這封公開信之前,我們先來回顧一下論文的主要內(nèi)容如何。
以前各國學(xué)者就對“性格是否會影響容貌”做過許多討論,近年也有研究提出了孕期的荷爾蒙水平會影響胎兒性取向的說法(PHT,prenatal hormone theory)并被廣泛接受,似乎可以說明性取向和面部發(fā)育之間有所關(guān)聯(lián)。另外,人們普遍相信同性戀發(fā)現(xiàn)其它同性戀的能力比異性戀要敏銳得多,這也說明了人們確實覺得同性戀和異性戀會看起來有所不同,才更容易被具備類似特質(zhì)(性取向)的人發(fā)現(xiàn)。
那么計算機,或者說深度學(xué)習(xí)能發(fā)現(xiàn)同性戀和異性戀之間的區(qū)別嗎?如果有區(qū)別,這些區(qū)別又是什么呢?作者們就借這篇論文做了一些探索。
他們首先去美國某個婚戀網(wǎng)站上找照片。婚戀網(wǎng)站上的人沒必要對性取向說謊對不對,這樣他們就采集到了來自36630個男性和38593個女性的一共30萬張照片,其中同性戀和異性戀各一半。借助曠視科技的Face++把合影、面部不全、面部太小、沒有面向相機的照片去掉以后,還剩下35326張符合需求的。
找好了照片,接下來要設(shè)計模型了。由于作者們并不是計算機系的學(xué)生,所以他們先直接選取了一個2015年提出、而后得到廣泛使用的深度神經(jīng)網(wǎng)絡(luò)人臉識別模型 VGG-Face,用來提取高維人臉特征。VGG-Face 的本意是用來識別確認(rèn)不同圖像里是不是同一個人的,所以它對照片中表情、背景、光照等因素的敏感性較低,這正是作者們需要的;另外他們直接用了經(jīng)過260萬張照片訓(xùn)練過的 VGG-Face 模型,也可以避免自己訓(xùn)練模型導(dǎo)致過擬合。
VGG-Face 中會把一張照片轉(zhuǎn)換為一個4096維的向量,也就是4096個子項分?jǐn)?shù)。作者們用奇異值分解(SVD)降維到500維以后,把這500維的值看作是500個獨立變量,與照片中人的性取向合起來建立了一個線性回歸模型,作為他們的預(yù)測分類器。所有照片中的95%用來訓(xùn)練這個預(yù)測分類器,然后用另5%做驗證測試。
結(jié)果1
作者們得到的第一個結(jié)果就是文章開頭的數(shù)據(jù),從一張同性戀和一張異性戀的照片里挑出同性戀的那個人(AUC),對男性的正確率有81%;挑女性照片的正確率則有71%;有5張照片的時候,AUC 可以繼續(xù)提升到男性的91%和女性的83%。這就有力地說明了人臉有更多隱含的信息,人類自己可能沒法感知和表達(dá),但這些信息是切實存在的。
(雷鋒網(wǎng) AI 科技評論補充科普:“AUC”和一般意義的“識別正確率”不能直接相等。AUC的全稱是Area under curve,指的是ROC曲線下方的面積。這個值形容的是模型給樣本中的正例打分高于負(fù)例的概率。
詳細(xì)解釋是這樣的,識別方法(線性回歸模型)內(nèi)部會首先對樣本打分,分?jǐn)?shù)范圍是0到1之間,再根據(jù)設(shè)定的標(biāo)準(zhǔn)輸出結(jié)果。由于人臉的細(xì)節(jié)很多,作者們選用的獨立變量也多,模型的內(nèi)部打分也會有很大波動。
假設(shè)從已確定性取向的人里選出一個同性戀A和一個異性戀B,模型可能認(rèn)為A是同性戀的可能性為0.4,B是同性戀的可能性為0.3;另一組同性戀 C 和異性戀 D 可能分別打分0.6、0.5?!白R別正確率”和“AUC”的對比如下圖:
可以看到,同一個模型、一樣的打分能力,識別正確率根據(jù)不同的標(biāo)準(zhǔn)可以有很多不同的值;實際中又往往也找不到那個沒有誤判的標(biāo)準(zhǔn)。所以“識別正確率”并不是一個足夠準(zhǔn)確的評價標(biāo)準(zhǔn)。
“識別正確率”在某個分類的出現(xiàn)概率很小時也不能使用。假設(shè)某罕見病的發(fā)病率為0.1%,那么隨便指著街上來來往往的人說他們都沒病就可以達(dá)到99.9%的診斷正確率;但這個診斷正確率對真正得病的病人是無濟于事的。
而模型在每一組二選一里都選對就會表現(xiàn)為更高的AUC,也就是從一張同性戀和一張異性戀照片里正確挑出同性戀的那張,這不受前述的判別標(biāo)準(zhǔn)和出現(xiàn)概率的影響。所以高AUC確實代表模型的識別能力更強,但是和識別正確率又不直接相等。作者們得出的“男性81%”、“女性71%”的AUC不代表“識別是否為同性戀”的準(zhǔn)確率就是這么高。)
結(jié)果2
作者們并沒有滿足于高AUC的結(jié)果,既然模型能找到同性戀和異性戀之間的區(qū)別從而把他們分開,那么這些區(qū)別是什么呢?作者們就從每組照片中抽出100張,生成一張綜合的臉,看看區(qū)別在哪里。結(jié)果同樣很明顯,看下圖
還有一張?zhí)崛〕龅奶卣鼽c對比圖
作者們分析得到的結(jié)論是,同性戀的臉型上體現(xiàn)出的典型性別特征更少。根據(jù)生成的“平均臉”,男性同性戀的下巴更窄、鼻子更長;女性同性戀則下巴更寬。
除了臉型之外,其它面部特征也有區(qū)別。跟異性戀相比,男性同性戀面部的毛發(fā)更少、膚色更淺,這和毛發(fā)生長速度、清潔習(xí)慣、曬太陽都有關(guān)系;女性同性戀則眼妝較淡、發(fā)色更深、衣服也更保守(可以從圖中看到更高的頸線),這都減少了典型性別特征的體現(xiàn)。
還有一些有意思的區(qū)別,總的來說女性比男性更愛笑,但是女性同性戀就比女性異性戀笑得要少;以及,在美國文化中棒球帽通常給人帶來更有力量的感覺,所以男性中異性戀戴帽子更多,女性中同性戀戴帽子更多(注意“平均臉”額頭附近的陰影,作者們也實際看了那些用到的照片確認(rèn)了這一點)。這仍然是“同性戀具有更少的典型性別特征”的體現(xiàn)。
結(jié)果3
為了從另一個角度驗證“同性戀具有更少的典型性別特征”的結(jié)論,作者們用2015年的 myPersonality.org 的290萬張 Facebook 用戶照片訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò)性別分類器,方法和前面一樣,只是這次只判斷性別。訓(xùn)練以后讓模型識別來自婚戀網(wǎng)站的那些照片,AUC達(dá)到了98%。
作者們分析了這個模型的識別結(jié)果,也發(fā)現(xiàn)男性同性戀的臉更為女性化,而女性同性戀的臉有更強的肌肉感。
結(jié)果4
“結(jié)果2”中的對比圖已經(jīng)說明了同性戀和異性戀臉型確實有區(qū)別。那么用臉型中的某個指定特征來預(yù)測性取向的結(jié)果如何?作者們用臉上的特征點分別計算了臉上特征的大小,然后為不同的特征分別訓(xùn)練模型嘗試挑出同性戀。這里每個人用了5張照片。
結(jié)果如下圖,對男性來說,只用臉的外輪廓(Contour)就可以達(dá)到75%的AUC,其它幾個特征的AUC也很高,非常顯著;女性則不明顯一些。五官的特征點都利用起來,男性的AUC上升到了85%,女性的也有70%。而原始VGG-Face模型輸出的4096維向量具有最全的信息,不僅限于五官的特征,基于它的AUC就是最高的91%和83%。
前面的結(jié)果都已經(jīng)有力地表明了可以從圖像中找到足夠多的線索來推測一個人的性取向。不過作者們也開始擔(dān)心,由于用到的照片是來自婚戀網(wǎng)站的,這些照片中的性吸引力會不會被放大了,才讓同性戀和異性戀顯得不同呢?作者們又做了兩個實驗來驗證。
結(jié)果5
最快的方法當(dāng)然是讓人來判斷。作者們從亞馬遜眾包平臺AMT上找了幾個完成的任務(wù)超過1000、且接受率高于98%的人來做判斷,可以認(rèn)為他們的結(jié)果可信度是很高的;同樣,對于隨機選出的一張同性戀照片和異性戀照片,他們要挑出其中同性戀的那個。
人類的結(jié)果是男性61%正確率和女性54%正確率,這也和以往多個研究中得到的55%~65%的準(zhǔn)確率相符。這個結(jié)果說明論文中用到的婚戀網(wǎng)站照片并沒有額外的吸引力;而且人類判斷男性的正確率更高,這也和神經(jīng)網(wǎng)絡(luò)的表現(xiàn)相符。
結(jié)果6
是時候測試模型的泛化能力了,用其它來源的照片得到相似的結(jié)果也能說明方法和原來的圖像的有效性。他們從 myPersonality.org 的 Facebook 用戶照片集中找出了6075個男性同性戀的14438張照片,用前文同樣的方法實驗后,得到了74%的AUC。
他們還做了一個反向驗證,讓模型分辨一個人是來自婚戀網(wǎng)站還是Facebook的,模型的AUC只有53%。這也說明了模型對人臉?biāo)幍沫h(huán)境不敏感,它確實只提取了人臉本身的信息。
對結(jié)果的討論
面對以上的結(jié)果,作者們也在論文中表達(dá)了自己的想法:
這一系列實驗的結(jié)果表明了人臉含有很多信息,有些信息人類自己沒法清晰地感知和表達(dá),但是深度學(xué)習(xí)模型可以,這就成為了判別是否是同性戀的基礎(chǔ)
根據(jù)深度學(xué)習(xí)結(jié)果總結(jié)出的面部特征區(qū)別,也和現(xiàn)有的解釋同性戀形成理論(PHT)有相符之處
發(fā)現(xiàn)了性取向和面部特征之間的聯(lián)系,可以給研究人類的某些社會活動和自然特性帶來更多的研究對象
同時很重要的是,他們不希望讀者錯誤地解讀了論文中的結(jié)論
同性戀的“平均臉”中具有更少的典型性別特征,并不代表所有的同性戀都是這樣,外表看起來非常像異性戀但實際是同性戀的人是必然存在的。論文中只是發(fā)現(xiàn)了一些微小、比較常出現(xiàn)、在“平均臉”上才比較明顯的特征。
深度學(xué)習(xí)能夠有效挑出同性戀,不代表人類也能有效判斷。論文中的結(jié)果就表明了,即便知道深度學(xué)習(xí)取得了很好的表現(xiàn),人類的判斷還是不怎么準(zhǔn)。
以及,不要把論文中展示結(jié)果用的AUC和一般意義上的“識別正確率”混為一談(這個上文有講過,還沒分清的讀者可以再看一遍)
在論文結(jié)尾,作者們也表示了對隱私的擔(dān)憂:以往有研究可以通過人在社交媒體上的行為判斷他/她是否是同性戀;可能這些行為可以隱藏或者刪除,但是人臉的特征是沒辦法輕易改變、也很難隱藏的。如今各處都有越來越多、越來越高清的監(jiān)控攝像頭,人們的照片在社交媒體、云服務(wù)商、政府?dāng)?shù)據(jù)庫中存儲得也越來越多,社交媒體上的照片還往往可以供任何人看到。這樣一來,如果有人建立了準(zhǔn)確的同性戀識別系統(tǒng)并把它投入應(yīng)用,就會成為一場災(zāi)難。
作者們之所以選擇公開自己的研究成果,就是在信息時代給大眾敲響警鐘;當(dāng)前也已經(jīng)有企業(yè)和政府聯(lián)手設(shè)計部署基于人臉的檢測系統(tǒng)。那么,提醒政策制定者、普通大眾、同性戀社區(qū)這種風(fēng)險的存在也就是刻不容緩的事情。作者們用的也都是現(xiàn)成的方法、已被廣泛使用的數(shù)據(jù),并不會給想要開發(fā)類似系統(tǒng)的人起到額外的什么幫助,而是展現(xiàn)了簡單的方法也可以對隱私問題構(gòu)成很大的威脅。他們希望他們的發(fā)現(xiàn)能夠提醒公眾和政策制定者考慮如何通過技術(shù)和政策降低這種潛在的風(fēng)險。受過良好教育的、有包容心的人們聯(lián)合起來為平權(quán)出力,“后”隱私時代才能變成一個更安全、更宜居的環(huán)境。
這篇論文被美國媒體報道,進(jìn)而被美國公眾了解到以后,馬上引發(fā)了許多討論甚至反對的聲音。有很多人給作者們寫郵件說他們“肯定是弄錯了,這是偽科學(xué)”,甚至還有人在郵件里寫“你們怎么不去死”這樣激烈的言辭。作者們也非常耐心地寫了一封公開信,回應(yīng)了收到的各種質(zhì)疑。
作者們首先重復(fù):他們的目的不是為了造出一個侵犯別人隱私的工具,而是為了驗證被政府和企業(yè)大規(guī)模應(yīng)用的現(xiàn)有科技是否會對人類中某些群體的隱私造成威脅。很不幸,他們發(fā)現(xiàn)確實會。即便反對這項研究的人,也不應(yīng)當(dāng)出于對研究內(nèi)容的反感,就否認(rèn)這種威脅的存在。作者們自己在發(fā)表論文前也擔(dān)心這項研究會引發(fā)注意,花了很多時間考慮這樣的研究是否會讓潛在的威脅付出水面,但他們最終決定,讓人們明確地了解到了這樣的威脅,才能夠提醒 LGTBQ 群體注意這些威脅、提醒大眾注意這些威脅、提醒數(shù)字服務(wù)提供商更好地保護(hù)人們的隱私、提醒政策制定者做出應(yīng)對。
同時作者們也提醒讀者們正確認(rèn)識論文中數(shù)據(jù)的意義,AUC并不等于系統(tǒng)識別的正確率(前文解釋過)。所以讀者們不要過分擔(dān)心這些結(jié)果的直接影響。
有許多人質(zhì)疑研究結(jié)果的正確性,作者們也坦誠,由于收集數(shù)據(jù)的困難性,他們此次的研究僅限于了白種人,所以白種人中表現(xiàn)出的特質(zhì)不一定也適用與其它的種族。但是根據(jù)這些研究結(jié)果不難想到,別的種族中也很可能存在某一些生物性的、發(fā)展性的、文化性的因素,導(dǎo)致別的種族的同性戀和異性戀之間也有所不同。但是對于其它“用的照片來自婚戀網(wǎng)站所以不準(zhǔn)確”、“人們普遍認(rèn)為面部特征和性格特質(zhì)之間沒有什么聯(lián)系”、“你們的算法肯定是受到一些別的亂七八糟的因素影響了”之類的質(zhì)疑,作者們已經(jīng)用論文中反復(fù)的、交叉對比的實驗證明了結(jié)果的有效性(參見本文介紹的結(jié)果1至結(jié)果6),他們也希望質(zhì)疑者可以先仔細(xì)閱讀論文中的實驗和結(jié)果再提出質(zhì)疑。
還有一些激進(jìn)的人在郵件里寫了“你們怎么不去死”等等咒罵的話,作者們也冷靜地給出了回復(fù)。對于這樣的人,作者們首先希望他們耐心讀一下論文,“不喜歡這樣的研究結(jié)果”并不代表這樣的結(jié)果不合理;而且這樣的結(jié)果才能有力地提醒所有人更加注意隱私的保護(hù)和相關(guān)政策的建立。以及,這項研究并不會直接改變某個個人的生活,但是對全體人類來說,這種威脅是確實存在的。
他們也列出了一條推特上的簡短有力的回復(fù):“如果你發(fā)現(xiàn)一項熱門的科技中隱含著威脅,你會自己對此保密,還是研究它、讓同行評議它、并發(fā)出警告呢?”
公開信地址:https://docs.google.com/document/d/11oGZ1Ke3wK9E3BtOFfGfUQuuaSMR8AO2WfWH3aVke6U/edit#
雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。