1
本文作者: 史中 | 2016-08-13 07:05 | 專題:CCF-GAIR | 全球人工智能與機器人峰會 |
60年以前,計算機視覺被第一次提出。這個人工智能的重要分支領(lǐng)域,到今天已經(jīng)歷經(jīng)一個甲子。這段歷史幾乎覆蓋整個計算機史,可謂跌宕起伏。
熟悉人工智能史的人都會了解,這門現(xiàn)在看來叼炸天的科學(xué)其實經(jīng)歷了三落三起。用微軟亞洲研究院常務(wù)副院長芮勇的話說就是:在90年代的時候,研究機器學(xué)習(xí)的學(xué)生連工作都很難找到。
【微軟亞洲研究院常務(wù)副院長芮勇,背景為人工智能之父:馬文.明斯基】
在今天的 CCF-GAIR 全球人工智能與機器人峰會,芮勇講述了在他眼中的計算機視覺發(fā)展史:一次長征。
人能看到圖片,而計算機只能看到“0”和“1”。
芮勇用一句話概括了機器視覺的艱難??v然艱難,但是我們卻慢慢讓機器“睜開了雙眼”。這些成就是進階形態(tài)的:
在人們最初試圖用機器來識別圖像的時候,只能對圖片上的像素進行分析。研究人員于是意識到,在圖片中并不是所有的像素都是“平等”的,而是有一些像素比另外一些重要。
從這個角度來看,這些像素就被分為了“線條、轉(zhuǎn)角、色彩”等類別。于是仿效人類對圖片的觀感,機器開始試圖從線條、灰度、色彩這些最基本的“特征”開始,對一個圖片進行最基本的認知。
經(jīng)過多年的技術(shù)積累,計算機技術(shù)對于一個圖片的基本特征有了較好的把握,于是科學(xué)家們試圖讓機器對圖片進行分類。
這種分類同樣經(jīng)歷了由淺入深地階段。以一張小狗的圖片為例。
首先要基本分類,讓機器學(xué)會判斷圖片中是否有一只狗;
其次要位置探測,讓機器可以準確識別小狗在圖片中的空間位置;
然后是像素級分類,最理想的狀態(tài)是,可以分辨出一張圖片中某個特定的像素究竟是屬于狗還是背景中的電視。
芮勇說,在2013年深度學(xué)習(xí)技術(shù)被引入圖像識別之后,識別錯誤率大幅下降。目前技術(shù)比較成熟, 例如可以從上百種狗里,準確地挑出和目標對應(yīng)的種類(這一水準已經(jīng)超越人類)。甚至在一些復(fù)雜的圖片中,只露出半個胳膊,也可以被成功識別為一個人。
芮勇告訴現(xiàn)場觀眾,目前我們普遍使用的“以圖搜圖”功能并不是他心中的“理解圖片”,只能算是臨近圖片搜索。而真正對圖片的理解,要理解圖片的意義。比如如下這張圖:
如果計算機可以用自然語言描述這幅圖:一個小朋友和他的爸爸在迪斯尼樂園玩。這才是理解。事實上,現(xiàn)在人工智能科學(xué)家已經(jīng)做到了這一點。
進一步,機器視覺可以實現(xiàn)對世界上名人的識別,并且可以做出描述:“彭麻麻和米歇爾一家在故宮合影”。
【彭麗媛與米歇爾一家在故宮合影】
芮勇說,目前微軟的技術(shù)可以做到全球排名前50萬的名人人臉識別。
在芮勇眼中,我們現(xiàn)在的計算機視覺,大多停留在“感知”的層面,而下一個可能的目標是:“認知”。
對于認知而言,就不僅僅是表面的描述,而是可以了解圖片的隱含意義以及文化意義。他為我們描述了前方等待攀登的四座山峰。
先來看如下一幅照片:
過去,這幅圖片可能被描述為:一個男人被象追著跑。
現(xiàn)在,有了人臉數(shù)據(jù),這幅圖片可以被描述為:奧巴馬被一群大象追趕。
但是,對美國政治有了解的童鞋看到了不僅僅是一副不知所云的畫面,由于在美國共和黨一般用象來代稱,所以他們看到的應(yīng)該是:
“在美國大選前夕,奧巴馬被一群共和黨競選者追趕?!?/strong>
這個邏輯鏈條推導(dǎo)出的引申意,才是這幅圖像的隱含意義。未來,人工智能有可能會解決這個問題。
對于計算機視覺來說,識別一個視頻中的圖像意義,相對于識別一幀圖片來說要難得多。處理視頻,需要對每一幀之間的聯(lián)系進行統(tǒng)一的計算和識別。
不過芮勇表示,目前已經(jīng)有一些模型從不同的角度出發(fā),來解決這個問題了。在不久的將來,計算機應(yīng)該可以通過一段文字來描述一個視頻。
【目前已經(jīng)可以實現(xiàn)對視頻中物體的像素級識別】
現(xiàn)在我們使用的聊天機器人,例如微軟小冰,可以進行簡單的聊天對話。但是并不能像人類一樣,可以實現(xiàn)表情包的“相互轟炸”。在未來,很可能人工智能機器人可以“讀懂”你的表情包。
例如你給小冰看這張圖:
你絕對不期望它回復(fù)你:“這是一只貓?!蹦憧赡芟M貜?fù):“臥槽!”
這里還有一些“正常的”回復(fù),他讓你感覺到自己在和另一個有感情的人在對話,而不是一個機器。
在人類的對話中,經(jīng)常涉及到對于圖片的具體情況的問答。例如在下面的圖片中:
對于左上角這一幅,你可以詢問計算機:“在泥濘的地上拉車的是神馬?”答案是:“馬”。
這個對人來說非常簡單的判斷,但是對于計算機來說,卻要經(jīng)歷諸多步驟:
什么是地?
什么是泥濘的地?
哪里是地上?
什么是車?
什么是拉?
通過層層篩選,最終計算機會給出如同熱力圖一般的蒙版,狂頂出它認為的答案范圍。而在這個范圍內(nèi)的物體,就是答案。
芮勇告訴雷鋒網(wǎng),雖然微軟現(xiàn)在已經(jīng)實現(xiàn)了上千種常用物體的圖片問答。但是仍然有很多物體不能被識別,這項技術(shù)仍然有非常大的進步空間。
另外,如何通過一幅圖片,理解并且講述其背后的故事,也是未來圖像識別的研究方向。
2016年,深度學(xué)習(xí)和圖像識別都有了很大的進步。不過芮勇說,這肯定不是“長征的勝利”,這些進步就像是長征途中的“遵義會議”,經(jīng)歷了一次重大的轉(zhuǎn)折勝利,但是仍然有很遠的路要走。
芮勇說,未來有三個條件可以保證長征成功:
1、機器學(xué)習(xí)算法本身的發(fā)展。人工智能可以從90年代的低谷到現(xiàn)在的高潮,好的算法可謂功不可沒。而不斷改進的算法,還可以讓計算機視覺的圖像識別率更加提高。
2、垂直領(lǐng)域?qū)<摇?/strong>計算機視覺的發(fā)展,其實不僅以來計算機科學(xué)家,還要靠其他領(lǐng)域的專家協(xié)作,在垂直領(lǐng)域產(chǎn)生效果。例如和金融領(lǐng)域的合作,可以更好地預(yù)測股票市場;和醫(yī)療領(lǐng)域合作,可以發(fā)明更精準的治療手段;和植物學(xué)家合作,可以實現(xiàn)僅僅拍照就能識別植物的種類和習(xí)性。
3、大數(shù)據(jù)。大數(shù)據(jù)是機器學(xué)習(xí)的糧食,如果有充足的,質(zhì)量高的大數(shù)據(jù),可以讓機器智能實現(xiàn)巨大的飛躍。
以上這些條件,看起來我們并不缺少。芮勇對于成功“到達陜北”充滿信心。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。