0
本文作者: 陳圳 | 2016-09-05 17:57 |
雷鋒網(wǎng)按:本文作者為Slyvia,ARC增強現(xiàn)實(微信ID:arinchina)文章詳細的分析了1)機器和人類在人臉識別方面的不同點;2)人機大戰(zhàn)結(jié)果的原因分析。
繼「圍棋」人機大戰(zhàn)——以李世石為代表的人類,輸給了阿爾法狗代表的計算機后,人類又發(fā)起了「人臉識別」之人機大戰(zhàn)。這一次是誕生于杭州的人臉識別機器人螞可,對戰(zhàn)「鬼才之眼」王昱珩。
15 年「最強大腦」中,在同質(zhì)同量同源的 520 杯水中,他成功指出評審選中的那杯,并精準(zhǔn)說出水杯旋轉(zhuǎn)了 15 度,中間經(jīng)人手,從此,「水哥」一戰(zhàn)成名。
結(jié)果揭露前,先了解計算機「看人」的套路。
人眼和計算機,都喜歡瞄「點」。只不過,人眼在辨別物體時,往往通過不同點來判斷。而計算機則相反,它找的是相同點。
通過攝像頭「觀察」目標(biāo),計算機將拍攝到的物體,以圖片形式傳給計算機,這就是圖像識別過程。淘寶的圖片搜索、百度的圖片識別功能,都屬于這類應(yīng)用。
在識別中時,計算機會找一些「與眾不同」的點,來和「腦海」中的圖片進行匹配。這些「鶴立雞群」的點,通常被稱為「角點」或「關(guān)鍵點」。這些點在圖像中具有一定特征,如局部最大或最小灰度(即圖像亮度)、某些梯度特征(描述圖像灰度變化情況的量)。
比如人臉上的一顆痣,在計算機識別時就會被當(dāng)成參考點。那么計算機是如何找到這些「角點」的?
角點圖
計算機在查找某個像素點時,是遵行逐個查詢的規(guī)則。為了判斷一個點是否為「角點」,會選取一個大小合適的窗口(比如 3*3 的窗口),讓窗口中心遍歷(即依次訪問)整個圖像像素,同時,判定中心點與它的周圍點是否有明顯不同。
因此,當(dāng)窗口在平滑區(qū)域(圖 a),窗口在各方向上移動時,圖中三個窗口內(nèi)部的圖像無變化。當(dāng)窗口在沿邊緣方向上移動時(如圖 b),三個窗口內(nèi)圖像也是不變的。當(dāng)窗口在「角點」處時(如圖 c),窗口無論朝哪個方向移動,三個窗口內(nèi)部圖像均不一樣,因此判斷該點為「角點」。
不同的「角點」檢測算法使用地窗口不一樣,采用圓形窗口檢測「角點」的 FAST,和采用 16*16 采樣窗口的 SIFT 算子中,是圖像特征點檢測的兩大算法。
找到特征點后,對它們進行描述后,才能開始圖像匹配。描述的大前提是,我們需要利用特征點周圍像素的梯度方向分布特性,為每個關(guān)鍵點指定方向。
比如在 SIFT 算子中,將采樣點與特征點的相對方向,通過高斯加權(quán)后得到一個 4*4*8 的 128 維特征描述子。
一系列加工后,就成了上圖這個「鬼樣子」
有了特征點描述子,就可以和模板圖的特征點描述子進行比較,得分最高的就是最佳匹配點。然后對所有特征點進行遍歷。計算機的「人臉識別」就是基于以上理論。同時,它還會進行一些縱向比較,比如通過圖片上五官的分布距離,來進行比較。
第一局,從 150 張網(wǎng)紅照片中找出 3 人,螞可勝
第二局,從 300 張網(wǎng)紅照片中找出 3 人,「水哥」勝
第三局,從 80 張網(wǎng)紅童年照中找出 2 人,「水哥」勝
三局兩勝,「水哥」代表的咱人類勝利了~ 螞可能勝一局,說明計算機在圖像識別的未來可期,但最終失敗,也說明還存在一些問題。
勝敗分析這次比賽挑選的識別對象——網(wǎng)紅臉,看上去都是從一個模子里刻出來的,無疑增加了比賽的難度。
面對這些千篇一律的網(wǎng)紅臉,螞可在識別近照時尚可,但到了童年照就有點吃力。
螞可在識別人臉時,部分程序是通過五官之間的距離來判斷的。但是,人在幼年時五官比較居中,隨著年齡增長會分散開些,「長開了」。更不用說,有些網(wǎng)紅還進行了「微整」,連親媽都認(rèn)不出了,何況是螞可。
第三局失敗情有可原。但為什么螞可還能贏第一局?因為快。
如果你仔細看上文視頻,可能對這句話還有印象:計算機識別時,先將照片劃分為四個區(qū)域,再分成幾百個關(guān)鍵點。
這是加快圖像識別的關(guān)鍵一步,在所有的圖像識別中,幾乎都采用了這種方式。圖像識別中有個專業(yè)名詞來形容,稱為「圖像金字塔」。
圖像金字塔
圖像金字塔最初用于機器視覺和圖像壓縮,一幅圖像的金字塔是一系列以金字塔形狀排列的分辨率逐步降低的圖像集合。底部是待處理圖像的高分辨率表示(上圖 G0),而頂部是低分辨率的近似(上圖 G3)。當(dāng)向金字塔的上層移動時,尺寸和分辨率就降低,識別速度得以提高。(注:分辨率越高,圖片越大越清晰)
同時,人在比賽中會受到外界干擾,心理作用比較大,但計算機沒有。所以「水哥」在開始失利,也有非專業(yè)因素在內(nèi)。
但是,后面螞可連輸兩局,還有更深層次的原因。
比賽中,兩位選手都需要通過自身移動來識別圖像,這對螞可是很不利的。因為攝像機移動時圖像識別會不穩(wěn)定,就像我們坐在車中看窗外景色,隨著車速增加,景色越模糊。
同時,現(xiàn)場燈光組給力,反光很強,也會影響螞可的識別。
生活中,當(dāng)我們背光看屏幕,由于反射光太強會導(dǎo)致看不清屏幕,這時我們會拉上窗簾或用手遮光,來降低光的反射。而計算機就得對現(xiàn)實環(huán)境亮度進行實時檢測,根據(jù)檢測結(jié)果對圖像亮度閾值進行調(diào)整后,再進行比較。
目前,機器對光的調(diào)節(jié)作用還趕不上人眼的調(diào)節(jié),又碰上「水哥」,只能甘拜下風(fēng)了!不過,即便這次螞可敗給了「水哥」,但「水哥」只有一個,螞可還有很多。下一次,我們還會贏么?
雷鋒網(wǎng)注:本文由ARC增強現(xiàn)實(微信ID:arinchina)授權(quán)雷鋒網(wǎng)發(fā)布,如需轉(zhuǎn)載請聯(lián)系原作者,并注明作者和出處,不得刪減內(nèi)容。
更多文章:1. 解密:智能美妝和動效自拍背后的技術(shù)
3. 人臉檢測發(fā)展:從VJ到深度學(xué)習(xí)(上)
4. 人臉檢測發(fā)展:從VJ到深度學(xué)習(xí)(下)
5. 深度學(xué)習(xí)在人臉識別中的應(yīng)用——優(yōu)圖祖母模型的“進化”
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。