1
本文作者: Misty | 2016-08-25 16:55 |
美國時間8月23日,《麻省理工科技評論》公布了第16屆TR35榜單,即全球35名35歲以下青年創(chuàng)新者榜單。各路精英在創(chuàng)造力、毅力、管理能力方面都堪稱翹楚,他們的創(chuàng)新領(lǐng)域涉及醫(yī)療、能源、計算機和先進電子器件;他們的事業(yè)舞臺涵蓋初創(chuàng)公司、研發(fā)機構(gòu)和企業(yè)巨頭。他們是各自領(lǐng)域的領(lǐng)軍人物。而加州大學(xué)伯克利分校機器人學(xué)專家Sergey Levine便是其中的一員。
在今年三月的圍棋人機大戰(zhàn)中,谷歌人工智能AlphaGO打敗了世界最優(yōu)秀的圍棋選手李世石,讓人們深深感嘆當(dāng)今人工智能的強大力量。當(dāng)時,Sergey Levine正在谷歌公司工作。在這九個月的工作時間中,他親眼目睹了人工智能的勝利,在欽佩AlphaGo在機器學(xué)習(xí)領(lǐng)域所取得的成就的同時,他發(fā)現(xiàn)了這個強大的圍棋游戲算法中存在的一個明顯缺點。
他笑稱:
縱使它們(程序)能夠戰(zhàn)勝世界最棒的圍棋選手,但它們從未親自拿起過一枚棋子。
眾所周知,機器人有著強大的大腦,它們足夠聰明,運算速度超快,能夠完成人類無法完成的工作。然而,它們也存在一個劣勢:一些在人類看來最常見最簡單的動作(比如擦桌子、抓杯子等),它們做起來非常困難。因此,它們要順利地完成這些任務(wù),學(xué)習(xí)能力相當(dāng)重要。
而Sergey Levine在做的,就是教會機器人學(xué)習(xí)。
在谷歌研究所中,14只機器人手臂擺在一起,連續(xù)數(shù)月地撿起不同的物品,重的、輕的、扁的、大的、小的、硬的、軟的、還有半透明的。而這正是Sergey Levine團隊正在進行的項目。
日復(fù)一日地撿起物品聽起來有點蠢,但Sergey Levine覺得這種方法獨一無二、意義重大。要教會機器人完成一個動作,傳統(tǒng)的方法首先要讓機器人去識別、分辨不同的物體,然后要通過反復(fù)的訓(xùn)練,最終才能實現(xiàn)目標(biāo)。這種方法在教會機器人完成簡單的任務(wù)(比如擰上瓶蓋)時還算湊效,但這個訓(xùn)練過程漫長而無味。另外,在面對復(fù)雜的任務(wù)時,這種方法的效果并不明顯。
而Sergey Levine團隊的方法卻與傳統(tǒng)方法截然不同,它的關(guān)鍵之處在于將已經(jīng)十分出眾的圖像識別分類算法用于機械臂,讓機器人能從先前的成功經(jīng)驗中學(xué)習(xí)。
首先,Levine給機械臂設(shè)定一些手頭上很容易解決的目標(biāo)(比如擰上瓶蓋),完成之后機械臂就可以回顧之前的成功案例,并從中學(xué)習(xí)經(jīng)驗,方便完成今后的任務(wù)。同時,機器人會觀測視覺系統(tǒng)數(shù)據(jù)如何映射到機械臂的電機信號,從而正確地完成任務(wù)。此外,機器人還會監(jiān)督自己的學(xué)習(xí)過程。
而之所以要讓這14只機械臂日復(fù)一日地撿起不同的物品,就是為了讓它們能夠?qū)W習(xí)不同物品的不同經(jīng)驗,從而將經(jīng)驗用到其他的物品之上。Levine表示:
這是對機器自身行為的逆向工程。這樣,它就可以將學(xué)習(xí)到的知識應(yīng)用到隨后的相關(guān)任務(wù)中,這樣機器人就會越來越聰明。
其實,要教會機器人撿起不同的物體非常復(fù)雜,因為傳感器數(shù)據(jù)和實際行動之間沒有明顯的必然聯(lián)系,尤其是當(dāng)大量傳感器數(shù)據(jù)一下子涌來時。
為了克服這一點,Sergey Levine團隊讓機械臂雜亂地使用單目視覺伺服、深度卷積神經(jīng)網(wǎng)絡(luò)來撿起目標(biāo)物(如杯子、膠帶座和玩具海豚),從而預(yù)測抓取的結(jié)果。機器人的度卷積神經(jīng)網(wǎng)絡(luò)會不斷進行自我再訓(xùn)練(起初有許多次失敗,但漸漸會開始好轉(zhuǎn))。最開始,團隊所運用的機械臂并沒有那么多,后來為了加快這一進程,團隊并行投入了 14 只機械臂來研究這一問題。這一系列過程是完全自主的,人類所需要做的就是把箱子填滿然后打開電源等著機器人主動完成任務(wù)即可。
經(jīng)過一年訓(xùn)練后,手臂能夠自己抓取并撿起小物體。但是,機械臂的編程信息通常是用來識別物體并按照預(yù)定的程序做出反應(yīng),無法像人類一樣根據(jù)周圍的環(huán)境做出改變。那么問題就來了:對于可預(yù)測的物體和環(huán)境,機械臂可以輕松應(yīng)對,但是它們可以抓取從來沒有見過的物體嗎?
為了探究這一點,Sergey Levine讓機器人手臂伸入隨機裝滿物體的盒子里,讓它們憑藉運氣隨機抓取物體。在一天之后,他收集機器人嘗試抓取物體的數(shù)據(jù),然后用這些數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),讓抓取物體的結(jié)果更加理想。在80 萬次(相當(dāng)于 3000 小時的機器人訓(xùn)練)抓取行動之后,機械臂就可以自動糾正自己的行動了。很快,他們就可以更加順利地抓取物體了,甚至?xí)捎媚撤N策略,如推開一個物體去抓取另外一個物體,或者去抓取柔軟的物體而不是堅硬的物體等。
在機械臂完成所有這些任務(wù)的過程中,沒有程序員編寫系統(tǒng)告訴他們該怎么抓取物體,但它們可以從自己的經(jīng)驗中學(xué)習(xí)。此外,它們還能使用反饋環(huán)路,將抓取物體的失敗率降低到18%。
現(xiàn)在,Sergey Levine研究的機器人已經(jīng)練成了“抓物神功”,不過,要想從實驗室走到真實世界,并能輕松應(yīng)對變化多端的環(huán)境、不同的目標(biāo)物、不同的光照條件及不同程度的磨損,這些機械臂還需要很長一段時間的“調(diào)教期”。
目前,Sergey Levine打算將他們的研究擴展到更寬的領(lǐng)域中,然后在實驗室之外的其他多種真實環(huán)境中進行嘗試。我們期待這些機器人能夠“學(xué)有所成“,成為更加聰明、更有“靈魂”的機器人。
新智造為雷鋒網(wǎng)旗下專注于機器人的公眾號,我們關(guān)注機器人的現(xiàn)狀與未來,以及與機器人結(jié)合的相關(guān)產(chǎn)業(yè)。感興趣的朋友可添加微信號AIRobotics,或是直接掃描下方二維碼進行關(guān)注!
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。