1
本文作者: no name | 2016-09-14 09:53 |
你有想過嗎?給你展示任何一張照片的時候,你看到的也許不僅僅是靜止的圖像,而是一段靈動的“小視頻”。如今,在機器學習的幫助下,可以根據靜止的照片,預測到接下來的一連串動作,準確率還相當?shù)母摺?/p>
無論是美女騎車、狗接飛盤,還是有人突然的跌倒等等,想象出這些連續(xù)的動作是我們最基本的技能之一,我們無需考慮用于預測的大量信息,比如重力、慣性和跌倒的本能反應等。那么,要讓電腦學會這種預判的能力無疑是機器視覺中的一個關鍵挑戰(zhàn)。
來自麻省理工學院的研究人員正在努力解決這個難題,他們已經展示出了一系列非常令人印象深刻的結果。通過使用專門訓練過的神經網絡,將圖像轉化為視頻,并由計算機預測接下來會發(fā)生什么。但是,他們的模型仍然有很多局限性,視頻通常只有幾秒鐘長,文件很小,而且圖像經常很混亂。但這仍然是機器想象力方面一次令人印象深刻的創(chuàng)舉,計算機在像人一樣理解世界的道路上又前進了一步。
訓練這個神經網絡使用了超過 200 萬個從 Flickr 下載的視頻片段。所有場景被分為四種類型:高爾夫球場、海灘、火車站和醫(yī)院。這組連續(xù)鏡頭的畫面很穩(wěn)定,消除了相機抖動。通過這些數(shù)據,團隊的神經網絡不僅能夠產生類似這些場景的短視頻,也能根據一個靜止圖像產生連續(xù)的畫面。這實質上是預判了接下來會發(fā)生的動作,但目前的效果還很有限,只能推測像素的變化,而不是基于整個場景的理解。
下面是效果圖:
這里,我們可以看到實現(xiàn)后的效果,例如在海灘上,你可以看到波浪的起伏;在火車站,預測模型會預判火車行駛。然而,當要求預測某人如何穿過高爾夫球場時,結果看起來有些失真,圖像也很模糊。
研究人員提到計算機的預測往往并不符合正常邏輯,但至少其對運動軌跡的判斷是合理的。
機器學習系統(tǒng)在相關領域已經取得了許多進展,包括預測握手和擁抱等行為,甚至能夠生成匹配視頻的音頻。Facebook 的 AI 部門負責人 Yann LeCun 在去年的一次采訪中提到了這個話題,表示預判運動軌跡是開發(fā)預測計算機的重要一環(huán)。但是,要做到真正理解視頻或圖像,及其接下來可能發(fā)生的動作,還需要花費研究人員更多的精力。
“假如你正在看希區(qū)柯克的電影,這時我問,‘從現(xiàn)在開始的15分鐘后,電影情節(jié)會發(fā)展成什么樣子呢?’你此時就必須設法預判出兇手是誰。”
LeCun說:“要完全解決這個問題,就需要了解這個世界和人性,這才是真正的樂趣所在?!?/p>
人工智能在預測方面的能力已經越來越強,但要想做到更加準確、自然、符合實際的效果,還需要更加完善的模型。研究人員也許需要考慮更多的因素,建立更加復雜的神經網絡,利用更多的數(shù)據集訓練模型。只有這樣,才有可能通過機器學習技術,真正實現(xiàn)對圖像中的連續(xù)動作進行提前預判。
via the verge
推薦閱讀:
在微軟亞洲研究院工作是種什么體驗? | 硬創(chuàng)公開課
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。