1
本文作者: 恒亮 | 2016-12-26 16:08 |
在某些情況下,我們常常無法對自己的行為作出合理的解釋。例如一場說走就走的旅行,一次奮不顧身的愛情,事后人們常常無法相信當(dāng)時的自己究竟為什么會做出那樣的選擇。但這種情況畢竟是少數(shù),大多數(shù)時候,我們都具有自我解釋和自我認(rèn)知的能力,而這一點也是人類與機器人(或者說人工智能)最大的區(qū)別之一。
一般我們所說的人工智能,其實說到底就是由一段程序代碼組成的復(fù)雜運算系統(tǒng),這個系統(tǒng)能夠根據(jù)輸入數(shù)據(jù)得出一個運算結(jié)果,而這個結(jié)果的外在體現(xiàn)就是人工智能。在通常情況下,我們只能看到輸入的數(shù)據(jù)和最終的運算結(jié)果,至于中間的運算過程究竟怎樣,則一概不知。
這會帶來兩方面的缺陷:一是當(dāng)整個系統(tǒng)出現(xiàn)問題時,我們無法迅速準(zhǔn)確地對問題進行定位并實施改進;二是當(dāng)人工智能得到一個近乎完美的運算結(jié)果時,我們無法回溯整個過程,并從中汲取經(jīng)驗(雷鋒網(wǎng)注:也就是我們常說的“AI決策黑箱”)。
現(xiàn)在有一個正在迅速成長的研究領(lǐng)域,正在試圖改變這一現(xiàn)狀。
拿圖像識別的場景來說。通常的做法是:我們會將一系列的圖像數(shù)據(jù)輸入系統(tǒng),然后系統(tǒng)會以既定的模式識別出圖像中的物體,并予以標(biāo)記。在現(xiàn)實場景中,每張圖片包含的信息都非常復(fù)雜,這使得一旦出現(xiàn)標(biāo)記錯誤,我們將很難回溯整個標(biāo)記流程,從而也很難定位并解決問題。
日前來自加州伯克利大學(xué)和Max Planck信息研究所的科學(xué)家們發(fā)明了一種全新的圖像識別算法,可以解決這一難題。該算法除了能夠按照一般的流程對圖像信息進行識別并加以標(biāo)記之外,還能對產(chǎn)生這一標(biāo)記的原始數(shù)據(jù)進行記錄,并將這一原始數(shù)據(jù)“翻譯”成人類可以理解的語言備份下來,方便研究者們回溯和檢查。
根據(jù)團隊發(fā)表的論文,目前這一算法還僅限于識別圖像里的人物動作信息(例如這個人是在打棒球還是騎自行車),而且需要基于兩種不同的數(shù)據(jù)集合的支持。第一個集合是關(guān)于圖像信息本身的,包括圖像、圖像的初步描述、以及圖像的進一步說明。例如一個打棒球的照片,描述信息可以是“圖中有一個棒球棍,以及一個人握著它”,說明信息可以是“這個人正在握著棒子揮舞”。第二個集合是關(guān)于圖像信息解釋的,其中包括三個圖像的相關(guān)問題,而且針對每個問題要給出10種可能的答案。例如問:“這個人是在打棒球么?”一種回答可以是:“不是,因為圖中沒有棒球棍?!?/p>
正是基于上述兩種數(shù)據(jù)集合的支持,當(dāng)某個利用了這種算法的神經(jīng)網(wǎng)絡(luò)系統(tǒng)被問到為什么將圖片描述為“打棒球”時,它就可以追溯到最原始的定位信息,并將之描述出來:例如它檢測到圖中出現(xiàn)了一個棒球棍,以及一個人在握著這根棒球棍揮舞,因此得出結(jié)論這是一個打棒球的照片。研究者們稱之為“標(biāo)記并解釋”系統(tǒng),因為它不但能描述一張圖片的內(nèi)容,還能指出為什么得出了這樣的結(jié)論。
微軟首席研究員Kate Crawford在評論中指出:工程師們已經(jīng)開發(fā)出了能夠自動識別不同種類的貓、狗或者其他內(nèi)容的深度學(xué)習(xí)系統(tǒng)。雖然這些系統(tǒng)的表現(xiàn)隨著研究的深入正在變得越來越好,但人們始終無法搞清楚背后的邏輯,即為什么系統(tǒng)會得到這個結(jié)論。
Kate Crawford的觀點觸及了機器學(xué)習(xí)領(lǐng)域的一個核心問題:當(dāng)一個算法進行自我學(xué)習(xí)時,它只能根據(jù)研究者輸入的數(shù)據(jù)(可以是文本,也可以是圖像或者視頻等),提取出關(guān)鍵的信息,并將這些信息按照只有機器自己才能理解的方式加以歸類和整理,這一過程完全不需要人類的直接參與,人類也無法加以觀察和控制。
波士頓大學(xué)計算機學(xué)科的教授Kate Saenko表示:實際上并沒有人能夠設(shè)計一個深度神經(jīng)網(wǎng)絡(luò)。人們只是設(shè)計了這個系統(tǒng)的算法,并提供了相應(yīng)的數(shù)據(jù)集合,剩下的都由系統(tǒng)自主完成。
所以,這就是來自加州伯克利大學(xué)和Max Planck信息研究所這一最新算法的重要意義:它能將機器內(nèi)部的邏輯鏈條翻譯出來展示給人類,而不是簡單的僅僅給出一個結(jié)論。
歐洲計算機視覺聯(lián)會的主席,F(xiàn)acebook訪問學(xué)者Devi Parikh表示:這一算法的難點不在于解釋一個結(jié)論本身,而是如何以人類能理解的方式表述出來。因為如果你看到過機器內(nèi)部的運算流程,就會發(fā)現(xiàn)其中所有的參數(shù)和中間變量都是以數(shù)字的形式出現(xiàn)的,有些數(shù)字甚至長達數(shù)百上千位。因此,從內(nèi)部的運算邏輯中找到一個結(jié)論的源頭數(shù)據(jù)或許并不困難,真正困難的是如何將這一長串?dāng)?shù)字翻譯成人類能夠理解的語言。
雖然目前來看,來自加州伯克利大學(xué)和Max Planck信息研究所的這一最新研究成果還非常具有局限性(例如只能識別人類的動作)。但更重要的是,它為我們指明了一種未來可能出現(xiàn)的現(xiàn)實場景:不但能夠從機器那里得到一件事情的具體決策,還能像跟朋友聊天一樣詢問它得到這一結(jié)論的原因。未來,隨著我們賦予機器越來越關(guān)鍵信息的決策能力(例如自動駕駛),這種能夠自我解釋的機制也將變得越來越重要。
當(dāng)然,如果像此前的報道那樣,機器有一天也終于學(xué)會了騙人,那就是另一個故事了。
來源:Quartz
本文作者:恒亮@雷鋒網(wǎng)
本文責(zé)編:岑峰@雷鋒網(wǎng)
【兼職召集令!】
如果你對未來充滿憧憬,喜歡探索改變世界的科技進展,look no further!
我們需要這樣的你:
精通英語,對技術(shù)與產(chǎn)品感興趣,關(guān)注人工智能學(xué)術(shù)動態(tài)的蘿莉&萌妹子&技術(shù)宅;
文字不求妙筆生花,但希望通俗易懂;
在這里,你會收獲:
一群來自天南地北、志同道合的小伙伴;
前沿學(xué)術(shù)科技動態(tài),每天為自己充充電;
更高的生活品質(zhì),翻翻文章就能掙到零花錢;
有意向的小伙伴們把個人介紹/簡歷發(fā)至 guoyixin@leiphone.com,如有作品,歡迎一并附上。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。