0
今年 2 月份,NeurIPS 組委會發(fā)布了NeurIPS 2020 在提交和評審機(jī)制上做出的一些重大更改,其中一項(xiàng)便是要求作者在投稿論文中單獨(dú)擬一個“影響陳述”章節(jié)來探討他們這項(xiàng)工作將帶來的更廣泛的影響,包括可能帶來的正面或負(fù)面的社會影響。
現(xiàn)在離截稿僅剩不到 3 天,還不知道怎么寫“影響陳述”的同學(xué)該怎么辦?
本文中,分別聚焦于人工智能治理、人工智能倫理以及機(jī)器學(xué)習(xí)的幾位研究人員,就從 NeurIPS 投稿作者的角度,針對如何分析機(jī)器學(xué)習(xí)研究的影響這一問題,提出了相關(guān)建議,并給大家呈上了一份“不那么正式”的撰寫指南。還在為“影響陳述”發(fā)愁的同學(xué)們,不妨重點(diǎn)參考下幾位研究人員的建議哦~
隨著機(jī)器學(xué)習(xí)成果應(yīng)用達(dá)到各個領(lǐng)域,其在對社會產(chǎn)生積極影響的同時,也存在著消極影響的隱患。這項(xiàng)舉措,對于評估ML 研究的社會影響而言,至關(guān)重要,也是作者本身思考并向其他科學(xué)家解釋研究的動機(jī)和背景的一個機(jī)會。
隨著時間的推移,評估機(jī)器學(xué)習(xí)研究的影響,將能夠增強(qiáng)機(jī)器學(xué)習(xí)研究社區(qū)在科技治理方面的專業(yè)能力,并有助于建立起研究人員與決策者之間的紐帶。不過,這件事情想要做好,還是困難重重、充滿挑戰(zhàn)性的。
那應(yīng)該如何對機(jī)器學(xué)習(xí)研究的影響進(jìn)行評估呢,不妨從以下幾個方面著手考慮:
1、強(qiáng)調(diào)研究帶來的益處和風(fēng)險。
NeurIPS要求“作者應(yīng)注意討論積極和消極的結(jié)果”。系統(tǒng)地這樣評估研究的兩面性,將有助于研究者克服各種偏見,避免個人和機(jī)構(gòu)偏向過度積極或過度消極的評估。畢竟,很少有科學(xué)進(jìn)步是完全積極或者完全消極的,更重要的是,要探討科學(xué)進(jìn)步積極或消極的原因,并且將時態(tài)發(fā)展引向更積極的方向。
2、強(qiáng)調(diào)不確定性。
眾所周知,預(yù)測研究尤其是基礎(chǔ)研究的影響,非常困難。我們建議你在陳述中承認(rèn)你對研究影響的不確定性,與此同時還要體現(xiàn)這種不確定性并不會阻礙你思考其影響。這會讓其他研究者了解到,能夠基于哪些地方做進(jìn)一步研究,以及如何理解你陳述中的不確定性。
3、聚焦于易于處理、被忽視以及特別重要的影響。
科學(xué)研究往往會帶來一系列令人困惑的潛在影響,更多的是因?yàn)檠芯渴瞧A(chǔ)性的,或者考慮的影響是長期的。把所有的影響都考慮在內(nèi)是不現(xiàn)實(shí)的。你可能會特意將評估范圍限制在那些特別易于分析的影響上,例如最明顯的直接影響。但實(shí)際上,你可以把重點(diǎn)放在與你的專業(yè)知識特別相關(guān)的、具有比較優(yōu)勢的影響上。你可以關(guān)注那些容易被忽視的影響。
對于研究人員來說,覆蓋例如視覺系統(tǒng)等可能存在的所有潛在影響,比像其他所有人一樣在同一個細(xì)節(jié)層次上討論最顯而易見的問題(例如眾所周知的濫用監(jiān)視系統(tǒng)的風(fēng)險),會更有成效。你可以關(guān)注那些特別重要的影響,比如那些可能破壞或加強(qiáng)民主制度中的公共審議的應(yīng)用,即便這些影響的推測成分比較大。
4、結(jié)合論文簡介。
從論文簡介開始,你可能就談到了研究工作的相關(guān)影響。但影響陳述不僅僅是發(fā)表一份科學(xué)出版物的“附加部分”,而是一個思考如何推進(jìn)你的進(jìn)一步研究工作的機(jī)會,并為你額外提供了進(jìn)行這項(xiàng)思考的空間。
5、討論,閱讀,反思。
如果時間允許,吸收他們更廣泛的思考將有益于影響評估。方法有:與同事以及其他有思想的人討論你的研究可能產(chǎn)生的影響;關(guān)注相關(guān)技術(shù)的公開討論;閱讀人工智能和技術(shù)相關(guān)影響的案例研究;閱讀關(guān)于技術(shù)治理的相關(guān)學(xué)術(shù)文獻(xiàn);大膽地問你自己:如果研究項(xiàng)目成功了會怎么樣呢?
6、即使是理論工作,也要考慮其影響。
NeurIPS 組織者表示,非常理論性或通用性研究的作者可以寫下“不適合討論更廣泛的影響”。然而實(shí)際上,理論性工作確實(shí)會產(chǎn)生下游影響,因?yàn)檫@畢竟是許多理論性工作的動機(jī),所以我們鼓勵研究人員嘗試更廣泛地思考其研究對相關(guān)子領(lǐng)域的影響。
7、建立影響評估的支撐結(jié)構(gòu)。將評估影響融入到你的思考習(xí)慣中。
如果你能創(chuàng)建一個研究小組或機(jī)構(gòu),不妨正式建立影響評估的支撐結(jié)構(gòu)來實(shí)現(xiàn)這一點(diǎn):在小組對話中分配時間,認(rèn)可并獎勵典范的相關(guān)貢獻(xiàn),或者也可以建立一個由研究員領(lǐng)導(dǎo)的機(jī)構(gòu)審查流程。具體到NeurIPS 2020,雖然要求在6月3日提交的完整論文中包含影響陳述部分,但作者也可以利用截止日期更晚些的補(bǔ)充材料來詳細(xì)陳述影響評估。
在影響評估過程中,你可以先問自己三個問題:
Q1:應(yīng)用——你的研究人會對ML 應(yīng)用產(chǎn)生怎樣的影響?
Q2:影響——這些應(yīng)用會產(chǎn)生怎樣的社會影響?
Q3:舉措——怎樣的研究或舉措能夠提高社會產(chǎn)出?我們先使用影響堆棧架構(gòu)來分析前兩個問題:
最下面一層是基礎(chǔ)性研究,它能夠?yàn)镸L 技術(shù)的研究注入新的活力。Q1 要問的是,這些研究如何影響 ML 應(yīng)用;Q2 要問的是,這些應(yīng)用會由企業(yè)或政府等群體帶來哪些現(xiàn)實(shí)實(shí)踐,會產(chǎn)生哪些社會影響;而 Q3 問的則是如何降低研究的應(yīng)用風(fēng)險以及實(shí)現(xiàn)收益最大化,例如通過應(yīng)對規(guī)范、政策、研究機(jī)構(gòu)以及選擇最佳實(shí)踐來是實(shí)現(xiàn)這一點(diǎn)。
下面將系統(tǒng)地探討這些問題。
首先,將你的研究貢獻(xiàn)匹配到影響堆棧架構(gòu)上,并確定它對于其他各層的主要影響。例如,基準(zhǔn)或軟件工具的引入可能加速特定技術(shù)(第1層)或應(yīng)用(第2層)的進(jìn)展;大腦的神經(jīng)科學(xué)模型可能為模型優(yōu)化(第0層)或神經(jīng)網(wǎng)絡(luò)架構(gòu)(第1層)提供思路。
接下來,針對上述三個問題一一展開討論。
Q1:應(yīng)用——你的研究會對ML 應(yīng)用產(chǎn)生怎樣的影響?
想一下你的研究如何通過堆棧架構(gòu)影響到ML 應(yīng)用,即特定任務(wù)的工具或解決方案。這些應(yīng)用可以是廣義的,如圖像分類,也可以是狹義的,例如唇讀。具體可以從以下幾個方面考量:
你的研究對已有應(yīng)用會帶來什么影響,以及如何產(chǎn)生影響。例如,你在transformer上的研究成功可能改善各類NLP 應(yīng)用。
你的研究可能會推動哪些新應(yīng)用的誕生,并解釋清楚如何做到?可能受你研究影響的應(yīng)用,都有什么屬性?這是考慮到應(yīng)用了你的研究思路的ML 應(yīng)用,可能會跟其他應(yīng)用有所不同。增加可解釋性、樣本效率和準(zhǔn)確性,都會對下游應(yīng)用產(chǎn)生不同的影響。
研究過程中相關(guān)的道德考量,比如說使用的數(shù)據(jù)是否存在隱私或公平性問題。
關(guān)于這一問題,可以考慮的因素包括:可解釋性和透明度,性能指標(biāo),公平性,數(shù)據(jù)、存儲以及計算要求,魯棒性和可泛化性,對抗魯棒性(例如數(shù)據(jù)中毒等),誤差、事故以及失效模式、偏見,反饋回路,對個人隱私的影響等等。
Q2:影響——這些應(yīng)用會產(chǎn)生怎樣的社會影響?
基于對Q1的答案 ,你要考慮這些應(yīng)用走出實(shí)驗(yàn)室后,會帶來哪些社會作用。例如,在訴訟中,一個唇讀工具可以用來轉(zhuǎn)錄閉路電視錄像作為證據(jù)。需要考慮的點(diǎn)有:
對于不同實(shí)體(企業(yè)、政府以及個人)而言可能存在的用途,尤其要考慮到新穎的用處以及惡意的、善意這樣的用途。
這些用途造成的社會影響范圍,包括對終端用戶、企業(yè)以及政府等各個群體的預(yù)期和非預(yù)期、短期和長期影響。在考慮潛在風(fēng)險時,可以考慮事故、惡意使用和結(jié)構(gòu)性風(fēng)險。
確定用途的主要屬性帶來的影響。特別是,需要確定由于失誤或局限性(例如隱私、公平、透明)所帶來的影響。
Q3:舉措——怎樣的研究或舉措能夠提高社會產(chǎn)出?
可以做些什么來增加研究帶來的正面影響和減少負(fù)面影響?不妨從以下幾個方面著手:
對ML研究的建議,例如如何讓研究轉(zhuǎn)變成有益應(yīng)用、提高對風(fēng)險的理解或控制技術(shù)(比如診斷工具或讓算法更加魯棒的策略)等方面的思路。
ML 領(lǐng)域以外的研究建議,如心理學(xué)、經(jīng)濟(jì)學(xué)、政治學(xué)、哲學(xué)等。你提到的想法可能會揭示新的技術(shù)可能性,對此就需要更多的社會研究來理解其含義,并設(shè)計非技術(shù)性的控制機(jī)制。
其他舉措,包括對其他類型的行為體,如公司、決策者、教育者、監(jiān)管機(jī)構(gòu)和媒體如何應(yīng)對研究帶來的可能性的建議。
為了讓大家更具體地了解“影響陳述”該怎么寫,下面來看三個案例。
1、GNN Explainer —為圖神經(jīng)網(wǎng)絡(luò)生成解釋
這篇論文中,作者介紹了一種為基于圖神經(jīng)網(wǎng)絡(luò)的模型的預(yù)測提供解釋的與模型無關(guān)的方法:GNN Explainer。
影響陳述:
GNN 可廣泛應(yīng)用于很多領(lǐng)域,包括計算機(jī)視覺、自然語言處理、推薦系統(tǒng)、流量預(yù)測、生成模型等。我們的研究可用來為這些應(yīng)用中使用的 GNN 提供解釋,提高對單個決策以及底層模型的理解。
一般而言,使用GNN 確實(shí)會帶來一些比較重要的影響,但在這里,我們著重討論使用GNN Explainer 為此類系統(tǒng)提供解釋會產(chǎn)生的影響。
使用這種工具有許多好處,例如提高決策關(guān)鍵型應(yīng)用的透明度、降低公平性、隱私和安全風(fēng)險。不過,增加可解釋性反過來也存在潛在風(fēng)險,而這一點(diǎn)通常較少受到關(guān)注。這些潛在風(fēng)險包括:1)自動化偏差的風(fēng)險,即對模型過度信任;2)如果使用解釋意味著系統(tǒng)現(xiàn)在可能被ML專業(yè)水平較低的人使用,而這可能會增加模型或其輸出被錯誤使用的風(fēng)險;3)如果只在發(fā)展階段使用解釋,之后又對模型進(jìn)行再訓(xùn)練,改變其行為,就可能給人帶來錯誤的“安全感”。
現(xiàn)在,有不少將 GNNExplainer 應(yīng)用于積極目的的研究,例如研究 GNNExplainer 是否能夠提高算法公平。為了降低使用其生成的解釋的風(fēng)險,我們建議研究人員了解在特定真實(shí)場景中使用GNNExplainer帶來的影響,比方說,在這些場景中,使用者是否了解其給出的解釋并做出相應(yīng)行為而不至于淪為自動化偏見的犧牲品?隨著時間的推移,使用這些系統(tǒng)是否能增加或減少人類的領(lǐng)域?qū)I(yè)知識。
2、SuperGLUE —NLP 基準(zhǔn)
在這篇論文中,研究者介紹了一個面向 通用語言理解系統(tǒng)的基準(zhǔn)——SuperGLUE。
影響陳述:
我們提出的新基準(zhǔn),將有助于加速NLP 應(yīng)用的發(fā)展進(jìn)程,與此同時還能像GLUE一樣,推動通用語言系統(tǒng)的開發(fā)。這些語言系統(tǒng)可以完成一系列任務(wù),包括從問答、情感分析到詩歌乃至角色扮演游戲等等。
在此基準(zhǔn)的支持和推動下,NLP 系統(tǒng)將有助于實(shí)現(xiàn)技術(shù)的廣泛應(yīng)用,包括客戶服務(wù)、服務(wù)臺、零售和銷售、醫(yī)療服務(wù)、金融和法律服務(wù)以及營銷。
這些應(yīng)用都有可能產(chǎn)生廣泛的社會影響:服務(wù)臺使用對話系統(tǒng)代替人工,可以節(jié)省成本并消除重復(fù)性勞動,不過另一方面也可能導(dǎo)致人類失業(yè);搭載于智能家庭設(shè)備中的個人語音助理,可以增加老年人行為上的自主性,但也可能會帶來一些關(guān)于加強(qiáng)性別模式、收集個人數(shù)據(jù)以及黑客攻占私人信息風(fēng)險的問題。特別需要注意的是,NLP 模型很可能被一些人惡意利用,來傳播錯誤信息或營造不信任、不確定的信息環(huán)境(GPT-2發(fā)布之初也引發(fā)了相關(guān)問題的討論)。
另外也有一些與基準(zhǔn)本身相關(guān)的重要考量因素。任何被廣泛使用的基準(zhǔn),都有可能在某個方面“扭曲”研究本身。例如,我們的這一基準(zhǔn)可能會偏向于在英文語言上表現(xiàn)較好的方法的研究,此外在有偏數(shù)據(jù)上訓(xùn)練出來的模型,可能會延續(xù)這些數(shù)據(jù)固有的偏見,比如說性別偏見。為了降低這一風(fēng)險,我們的基準(zhǔn)內(nèi)嵌了Winogender這一分析工具,來說明模型是否體現(xiàn)出了性別偏見。
我們將開展進(jìn)一步的研究工作,來理解 SuperGLUE 中使用的數(shù)據(jù)集的偏見和局限性。我們也提倡其他基準(zhǔn)也應(yīng)采取相關(guān)舉措,包括使用檢測性別偏見和其他局限性的分析工具。與此同時,我們也鼓勵研究人員開發(fā)用于有益任務(wù)的NLP 系統(tǒng),例如基于文本的咨詢系統(tǒng)。
我們認(rèn)為,社區(qū)也有必要開展理解和減輕NLP 應(yīng)用中風(fēng)險的研究。比如針對機(jī)器生成錯誤信息的問題,此前一個解決方法是開發(fā)檢測系統(tǒng)來檢測錯誤,然而,隨著NLP 技術(shù)的改進(jìn),這些檢測系統(tǒng)的有效性會逐漸降低。因而,我們建議研究人員和政策制定者尋找方法,來利用平臺來檢測和阻止惡意內(nèi)容的傳播,而不是機(jī)器生成的內(nèi)容。
3、Pluribus — 在多人撲克比賽中戰(zhàn)勝人類的AI
在這篇論文中,作者介紹了一個在6人德州撲克比賽中打敗了頂級職業(yè)人類玩家的系統(tǒng)——Pluribus。
影響陳述:
對于撲克游戲系統(tǒng)的影響,我們認(rèn)為應(yīng)該主要聚焦于開發(fā)隱藏信息設(shè)置中的策略能力帶來的長期影響。這樣的能力能夠應(yīng)用于廣泛的場景,例如拍賣、匹配、日程安排、定價以及網(wǎng)絡(luò)安全等。
隨著隱藏信息策略游戲中參與者在技能方面的不斷優(yōu)化,可能會對福利產(chǎn)生復(fù)合效應(yīng),這取決于這些能力的分布方式和策略設(shè)置的特征。例如在撲克游戲中,當(dāng)設(shè)置接近零和時,技能的任何變化只可能會將價值轉(zhuǎn)移到那些技能提高得更多的一方身上。如果富人能夠獲得更多的技能,就有可能促進(jìn)財富的集中。如果設(shè)置為帕累托改進(jìn)(Pareto Improvement) ,在貿(mào)易談判等場景中,可能會增加總福利。也就是說,最終這項(xiàng)技術(shù)能給社會帶來有害或者有益的影響,取決于動機(jī)不良或動機(jī)純良的公民誰能夠利用好這項(xiàng)技術(shù)進(jìn)步。
我們建議社會科學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的研究人員嘗試研究如下問題:
從這項(xiàng)研究和相關(guān)研究中獲得的思路,可以應(yīng)用到其他哪些應(yīng)用中?
如果這一系列研究確實(shí)提高了特定領(lǐng)域的策略能力,那么這些能力將如何分布?
如果這些能力分布不均,總體福利效果如何?如果這些能力均勻分布呢?
其他參考資料:
1、關(guān)于 AI 倫理和治理的相關(guān)資料,可參考
The Ethics and Governance of Artificial Intelligence,http://blogs.harvard.edu/jzwrites/files/2017/07/1_19_Ethics-and-Governance-of-AI-Syllabus.pdf
The ethics of artificial intelligence: Issues and initiatives,https://www.europarl.europa.eu/RegData/etudes/STUD/2020/634452/EPRS_STU(2020)634452_EN.pdf
AI Governance: A Research Agenda,https://www.fhi.ox.ac.uk/wp-content/uploads/GovAI-Agenda.pdf
2、關(guān)于撰寫 NeurIPS“影響陳述”的相關(guān)資料:
NeurIPS官網(wǎng),https://neurips.cc/Conferences/2020/PaperInformation/NeurIPS-FAQ
Suggestions for Writing NeurIPS 2020 Broader Impacts Statements,https://medium.com/@BrentH/suggestions-for-writing-neurips-2020-broader-impacts-statements-121da1b765bf
3、計算領(lǐng)域的影響陳述相關(guān)資料:
It’s Time to Do Something: Mitigating the Negative Impacts of Computing Through a Change to the Peer Review Process,http://www.brenthecht.com/papers/FCADIscussions_NegativeImpactsPost_032918.pdf
4、實(shí)現(xiàn)負(fù)責(zé)任研究的一些工具資源:
A Framework for Responsible Innovation,https://onlinelibrary.wiley.com/doi/10.1002/9781118551424.ch2
RRI,https://www.rri-tools.eu/about-rri 雷鋒網(wǎng) 雷鋒網(wǎng) 雷鋒網(wǎng)
via https://medium.com/@operations_18894/a-guide-to-writing-the-neurips-impact-statement-4293b723f832
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。