0
本文作者: JocelynWang | 編輯:幸麗娟 | 2019-11-29 19:33 |
雷鋒網(wǎng) AI 科技評論按:機器學習以其特有的優(yōu)勢逐漸在科學研究中得到大量應(yīng)用,然而,其內(nèi)在的“黑箱”特點也帶來了一系列問題,有研究者認為正是機器學習的這種不可解釋性導致了當下科學研究的“可重復(fù)性危機”——如果科學不可重復(fù),那我們是否還能稱之為真正的科學嗎?與此同時,更有研究者聲稱機器學習已經(jīng)成為一種“煉金術(shù)”。本文基于機器學習所帶來的“可重復(fù)性危機”,從“是什么”“為什么”以及“下一步該如何做”三個層次進行了闡述,為這一危機尋找出路:可重復(fù)性和可解釋性的機器學習模型。
“如今科學界的研究人員普遍意識到存在一種“可重復(fù)性危機”(Reproducibility Crisis)。我敢說,這其中很大一部分都來源于機器學習技術(shù)在科學中的應(yīng)用?!?br/>
—— 摘自萊斯大學統(tǒng)計與電氣工程系教授 Genevera Allen
機器學習方法正在取代傳統(tǒng)的統(tǒng)計方法,越來越普遍地被應(yīng)用到科學研究過程中,這會給科學界及其對知識的追求帶來什么影響呢? 一些人認為,正是機器學習技術(shù)的“黑箱”導致了科學研究的“可重復(fù)性危機”。畢竟,如果科學不可重復(fù),那我們是否還能稱之為真正的科學嗎?
(聲明:本文是我自己基于參考文獻中所參考的材料發(fā)表的一些觀點。這是學術(shù)界的一個有爭議的領(lǐng)域,歡迎大家進行建設(shè)性辯論。)
科學過程的生命周期
機器學習(ML)在科學研究中似乎已經(jīng)無處不在,甚至在很多領(lǐng)域中已經(jīng)替代了傳統(tǒng)的統(tǒng)計方法。雖然通常來說,ML技術(shù)更易于用作分析的一項工具,但它內(nèi)在的“黑箱”特點給科學家在追求真理的過程中造成了一些嚴重的問題。
科學界的“可重復(fù)性危機”是指是指驚人數(shù)量的研究結(jié)果無法在另一組科學家團隊進行的同一個實驗中實現(xiàn)重復(fù)。這可能就意味最初的結(jié)果是錯誤的。一項研究表明,在全世界所有進行過的生物醫(yī)學研究中,有多達 85% 的研究結(jié)果都是徒勞無獲的。
關(guān)于“可重復(fù)性危機”的爭論可能是學術(shù)界中最接近機器學習和統(tǒng)計學學科間的斗爭的一次爭論。
一位人工智能研究員甚至在一篇科學文章中聲稱,機器學習已經(jīng)成為一種“煉金術(shù)”。(相關(guān)閱讀鏈接:https://www.sciencemag.org/news/2018/05/ai-researchers-allege-machine-learning-alchemy?)
他關(guān)于這個話題的一些論文和博客文章,都非常值得一讀,比如:“大型尺度核機器的隨機特征”,文章鏈接為:https://people.eecs.berkeley.edu/~brecht/papers/07.rah.rec.nips.pdf
ML成為了科學研究一項很好的補充,使其在研究中的應(yīng)用變得不可避免。ML可以被視為一個工程任務(wù)——就像一條集建模、調(diào)參、數(shù)據(jù)預(yù)處理和與元素優(yōu)化于一體的流水線。ML 的目的就是尋找最優(yōu)解或最優(yōu)預(yù)測,而這屬于科學研究的一項子集。
機器學習的類型和算法本身就是科學研究的議題。與過去的統(tǒng)計方法一樣,現(xiàn)在研究者們正在撰寫大量各類 ML 算法和 ML 算法子類相關(guān)的科研論文。
2019年 2 月,Genevera Allen 在美國科學進步協(xié)會(AAAS)上發(fā)出了一個嚴重警告:科學家們正在學習基于機器學習算法來發(fā)現(xiàn)數(shù)據(jù)中的模式,即使這些算法只是專注于在另一個實驗中無法重復(fù)的噪音。
這一挑戰(zhàn)涉及多個學科,因為機器學習在天文學、基因組學、環(huán)境科學和醫(yī)療保健等多個領(lǐng)域都被應(yīng)用于獲取發(fā)現(xiàn)。
其中,Genevera Allen 使用的最主要的例子是基因組數(shù)據(jù),這些數(shù)據(jù)通常是數(shù)據(jù)量非常巨大的數(shù)百 GB 或數(shù)個 TB 的數(shù)據(jù)集。她指出,當科學家使用自己不太了解的 ML 算法對基因組圖譜進行聚類分析時,常常會出現(xiàn)似是而非、不可重復(fù)的結(jié)果。
直到另一個團隊進行了類似的分析研究,并得出了完全不同的結(jié)果,這才使得之前的結(jié)果變得有爭議且被人質(zhì)疑。這其中可能有多種原因:
缺乏算法知識
對數(shù)據(jù)缺乏了解
對結(jié)果的曲解
1、算法知識的欠缺
缺乏算法知識的現(xiàn)象在機器學習應(yīng)用領(lǐng)域顯得極為普遍。如果你不明白一個算法是如何產(chǎn)生結(jié)果的,那又怎么能確定它有沒有作弊,或者其得到的變量間相關(guān)性的結(jié)果實際上是虛假的呢?
由于參數(shù)太多(深度神經(jīng)網(wǎng)絡(luò)通常有數(shù)百萬個參數(shù)),這是神經(jīng)網(wǎng)絡(luò)中的一大問題。而實際上用于記數(shù)的不僅僅有參數(shù),還有超參數(shù),包括學習率、初始化策略、迭代次數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)等項。
僅僅意識到自己缺乏算法知識是不足以解決這個問題的。如果不同研究的論文中使用的是不同的網(wǎng)絡(luò),你又如何將這些結(jié)果進行比較?由于高維神經(jīng)網(wǎng)絡(luò)損失函數(shù)的動態(tài)結(jié)構(gòu)圖具有高度復(fù)雜性,即使只增加一個額外變量或改變一個超參數(shù)也會對結(jié)果產(chǎn)生顯著的影響。
2、對數(shù)據(jù)缺乏了解
缺乏數(shù)據(jù)知識也是一個巨大的難題,但這一問題可以延伸到傳統(tǒng)的統(tǒng)計技術(shù)方法。數(shù)據(jù)采集中的誤差——如量化誤差、測量不確定性和智能體變量的使用,這是主要的問題。
次優(yōu)數(shù)據(jù)也常常會造成一些問題,但是了解什么樣的數(shù)據(jù)適合使用什么樣的算法也是非常重要的,并且這一選擇可能會對結(jié)果產(chǎn)生重大影響。一次簡單的回歸檢驗就可以很輕松地證明這一點。
通常地,在實驗中會出現(xiàn)參數(shù)多于數(shù)據(jù)點的現(xiàn)象(這在基因組學中是非常正常的,因為我們有很多基因,很少數(shù)據(jù)點),如果我們使用線性回歸方法,那么我們選擇的正則化方式會嚴重影響被視作為重要的參數(shù)。
如果我們使用套索回歸( LASSO Regression),該回歸方法趨向于將明顯不重要的變量統(tǒng)統(tǒng)變?yōu)榱?,從而從回歸中將它們消除并提供一些變量選擇。
如果我們使用嶺回歸( Ridge Regression),該回歸方法傾向于將這些不重要的參數(shù)縮小到足夠小,以至于它們可以忽略不計,但同時將它們從數(shù)據(jù)集中刪除也是有必要的。
如果我們使用彈性網(wǎng)絡(luò)回歸( Elastic Net Regression,套索回歸和嶺回歸的組合),我們將再次得到非常不同的答案。
如果我們不使用任何回歸,那么由于我們有比數(shù)據(jù)點更多的變量,算法顯然會使得數(shù)據(jù)過擬合,因此算法將繁瑣地對所有數(shù)據(jù)點進行擬合。
顯然,在線性回歸中,可以通過置信區(qū)間、p-檢驗等統(tǒng)計測試來評估它的準確性。然而,對于神經(jīng)網(wǎng)絡(luò)來說,這些評估方式只能是一種奢侈的幻想,是不存在的。那么我們怎樣才能確定我們通過神經(jīng)網(wǎng)絡(luò)得來結(jié)論的準確性如何呢?我們目前所能做的就是詳細的陳述模型的架構(gòu)和超參數(shù),并將代碼開源,以供其他科學家進行分析或?qū)@個模型重新使用。
3、對結(jié)果的誤解
對結(jié)果的誤解在科學界很常見。其中一個原因是相關(guān)性并不意味著因果關(guān)系,一般來說,兩個變量A和B可能存在關(guān)聯(lián)的原因有以下幾點:
1)A可能是由B的出現(xiàn)引起的
2)B可能是由A的出現(xiàn)引起的
3)A和B可能是由另一個混雜變量C引起的
4)A和B可能是偽相關(guān)性
兩值間的相關(guān)性很容易顯現(xiàn)出來,但產(chǎn)生這種結(jié)果的原因很難確定。通過在谷歌上輸入偽相關(guān)性,你可以找出一些看起來非常有趣但明顯十分荒謬的具有統(tǒng)計意義相關(guān)性例子,比如:
這些似乎都是十分荒謬的相關(guān)性例子,但我想指出的是,如果將這些變量放到提供給機器學習算法進行訓練的數(shù)據(jù)集中,則該算法不會考慮所述因果關(guān)系的有效性或者提出任何問題,而是很輕易地接受此相關(guān)性作為因果變量。從這個角度看,該算法很可能是不準確或者錯誤的,因為軟件只負責識別出僅存于該數(shù)據(jù)集而不是現(xiàn)實世界中的模式。
偽相關(guān)性的出現(xiàn),正是由于人們越來越普遍地使用一些具有成千上萬個變量的大型數(shù)據(jù)集。而近幾年來,偽相關(guān)性發(fā)生的頻率也變得驚人的多。
如果我有上千個變量和數(shù)百萬個數(shù)據(jù)點,那么這些數(shù)據(jù)之中不可避免的會出現(xiàn)相關(guān)性。算法可以鎖定這些因素并將其認定為因果關(guān)系,從而有效地執(zhí)行無意識的 p-hacking,而 p-hacking 是一項還沒有在學術(shù)界得到認可的技術(shù)。
1、什么是 p-hacking
p-hacking的做法包括獲取數(shù)據(jù)集以及盡可能全面地搜索其中具有統(tǒng)計學意義的相關(guān)性,并將這些相關(guān)性視為科學有效。
你擁有的數(shù)據(jù)越多,就越有可能在兩個變量之間找到偽相關(guān)性。
通常來說,科學研究包括了提出假設(shè)、收集數(shù)據(jù)以及通過對數(shù)據(jù)進行分析以確定假設(shè)是否有效。p-hacking 所做的是先進行一個實驗,然后通過既得實驗結(jié)果形成事后假設(shè)來解釋它們所獲得的數(shù)據(jù)。這樣做本身是沒有惡意的,但是有些時候,科學家們這么做僅僅是為了讓他們能夠發(fā)表更多的論文。
2、增強相關(guān)性
機器學習算法的另一個問題是算法必須能夠做出預(yù)測,這就好比算法不能在最后說“我什么都沒找到”。這種算法框架的脆弱性意味著,無論最終特征結(jié)果多不合適,它總能找到某種可以用來解釋數(shù)據(jù)的方法(需要在算法和數(shù)據(jù)正確設(shè)置的前提下實現(xiàn),否則可能無法收斂)。
目前,我還沒聽過哪個機器學習算法能夠返回用戶并告訴他們數(shù)據(jù)是不合適的,這項工作已經(jīng)被暗定為科學家的任務(wù)——而這并不是什么公平的假設(shè)。
“那為什么還使用機器學習呢?”
這是一個很好的問題。機器學習使數(shù)據(jù)集的分析變得簡易,并且 ML 算法可以幫助用戶進行大量的工作。在由于數(shù)據(jù)集太大而無法使用標準統(tǒng)計技術(shù)進行有效分析的領(lǐng)域中,這一點就變得彌足珍貴。盡管它加速了科學家的工作進度,但是機器學習在預(yù)測質(zhì)量上存在的問題足以抵消機器學習帶來的生產(chǎn)效率上的提高。
機器學習的前景也并非完全黯淡無光。傳統(tǒng)統(tǒng)計方法和數(shù)據(jù)集也一直存在著類似的問題,只是在機器學習中這些問題由于大型數(shù)據(jù)集和算法的大量使用而被放大了。這些數(shù)據(jù)集和算法可以自動找到數(shù)據(jù)的相關(guān)性,與傳統(tǒng)技術(shù)相比,使得我們更難對找到的相關(guān)性進行解釋。同時,上述這種放大也暴露了科學研究過程中有待克服的弱點。
然而,研究者也在開展下一代機器學習系統(tǒng)的相關(guān)工作,以確保它能夠評估其預(yù)測的不確定性,以及解決它的不可再現(xiàn)性。
話雖這么說,正如只有愚昧的工人才會將他失敗的原因歸咎于他們使用的工具,科學家們在使用機器學習算法時也需要格外小心,以確保他們的研究結(jié)果得到證實和檢驗。同行評審流程的設(shè)計初衷就是為了確保這一點,而這同時也是每個研究人員的責任。研究人員需要弄清他們使用的技術(shù)并了解其局限性;如果他們不具備這些專業(yè)知識,那么去一趟統(tǒng)計系與某位教授進行一次交流將會讓我們都收益匪淺。
Rahimi(他認為 ML是一種 “煉金術(shù)”方法)提供了一些建議來判斷哪種算法最為有效,在何時最佳。他指出,研究人員應(yīng)進行消融研究, 即將參數(shù)依次移除,以評估其對算法的影響。 Rahimi 還呼吁進行切片分析,即分析一個算法的性能,以了解對該算法在某些方面的改進會使其消耗其他方面的成本。最后,他建議運行設(shè)置了具有各種不同超參數(shù)的算法,并應(yīng)匯報這些算法的所有性能。這些技術(shù)將使用 ML 算法對數(shù)據(jù)提供更強大的分析。
由于科學研究過程的性質(zhì),一旦解決了這些問題,就可以最終發(fā)現(xiàn)并糾正以前發(fā)現(xiàn)的認為是準確的錯誤關(guān)系。準確的判斷當然經(jīng)受得起時間的考驗。
由于最終結(jié)果缺乏可重復(fù)性,機器學習方法在科學學術(shù)界確實存在問題。然而,科學家們已經(jīng)意識到了這些問題,并且正在朝著更具可重復(fù)性和可解釋性的機器學習模型推進相關(guān)工作,而一旦實現(xiàn)這一目標,神經(jīng)網(wǎng)絡(luò)將會迎來真正意義上的突破。
Genevera Allen 強調(diào)了機器智能面臨的一個基本問題:數(shù)據(jù)科學家仍然不了解機器學習所采取的機制??茖W界必須共同努力,以便了解這些算法究竟是如何工作的,以及如何最有效地使用它們,以確保使用這種數(shù)據(jù)驅(qū)動的方法最終得出可靠的、可重復(fù)的科學有效的結(jié)論。
就連聲稱機器學習是“煉金術(shù)”的 Rahimi 也對其潛力充滿希望。他說,“正是由于原始的煉金術(shù)才有了后面的冶金學、藥物制造、紡織染色以及我們現(xiàn)代的玻璃制造工藝技術(shù)的發(fā)明。此外,煉金術(shù)士也認為,他們可以將普通的金屬轉(zhuǎn)化為黃金,而水蛭是治愈疾病的好方法?!?/p>
正如物理學家Richard Feynman1974年在加州理工學院的畢業(yè)典禮上所說,
“科學的第一個原則是你不能愚弄自己,然而你自己卻是最容易被愚弄的人?!?/p>
[1] https://science-sciencemag-org.ezp-prod1.hul.harvard.edu/content/sci/365/6452/416.full.pdf
[2] https://research.fb.com/wp-content/uploads/2019/05/The-Scientific-Method-in-the-Science-of-Machine-Learning.pdf?
[3] https://bigdata-madesimple.com/machine-learning-disrupting-science-research-heres/
[4] https://biodatamining.biomedcentral.com/track/pdf/10.1186/s13040-018-0167-7
[5] https://www.sciencemag.org/news/2018/05/ai-researchers-allege-machine-learning-alchemy
[6] https://www.sciencedaily.com/releases/2019/02/190215110303.htm
[7] https://phys.org/news/2018-09-machine-scientific-discoveries-faster.html
[8] https://www.americanscientist.org/blog/macroscope/people-cause-replication-problems-not-machine-learning
[9] https://www.datanami.com/2019/02/19/machine-learning-for-science-proving-problematic/
[10] https://www.quantamagazine.org/how-artificial-intelligence-is-changing-science-20190311/
[11] https://ml4sci.lbl.gov/
[12] https://blogs.nvidia.com/blog/2019/03/27/how-ai-machine-learning-are-advancing-academic-research/
[13] https://towardsdatascience.com/a-quick-response-to-genevera-allen-about-machine-learning-causing-science-crisis-8465bbf9da82#--responses
[14] https://www.hpcwire.com/2019/02/19/machine-learning-reproducability-crisis-science/
By Matthew Stewart, PhD Researcher
via https://towardsdatascience.com/the-machine-learning-crisis-in-scientific-research-91e61691ae76 雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。