0
本文作者: AI科技評論 | 2016-06-15 22:00 |
圖片來源:TechInsider
距離“圖靈測試”的最初問世已經(jīng)過了70年,“圖靈測試”作為科幻元素經(jīng)常出現(xiàn)在電影中,可是現(xiàn)實中仍然沒有人完整地回答過這個問題:我們能否創(chuàng)造出行為與人類毫無二致、讓人“難辨雌雄”的智能機器?
12年的時候,MIT的研究人員開發(fā)了一個通過“視覺”圖靈測試的系統(tǒng),可以輸出讓人類都難以分別的手寫字?,F(xiàn)在,MIT計算機與人工智能實驗室(CSAIL)展示了一個深度學(xué)習(xí)算法,可以通過聲音的圖靈測試:當(dāng)研究員將一個擊打物品的短視頻交給算法,算法就可以生成一個打擊的聲音,真實到可以糊弄住觀看視頻的人類。點擊連接中的視頻,看看算法生成的聲音能不能糊弄住你。
這個項目的意義不只是挑戰(zhàn)圖靈測試的“聰明”把戲,研究人員認為,未來該算法的其他版本可以為電影和電視劇自動生成音效,也可以幫助機器人更好地理解物品的特性。
項目論文的第一作者、CSAIL的博士生Andrew Owens說:“當(dāng)你的手指劃過玻璃酒杯的杯口,酒杯發(fā)出的聲音可以反映出杯中有多少液體。以聲音為模型的算法可以告訴我們物品的形狀、材質(zhì)等重要信息,以及物品與外界互動時的力量和運動?!?/p>
團隊使用了“深度學(xué)習(xí)”領(lǐng)域的技術(shù),該技術(shù)需要用大量數(shù)據(jù),教會計算機自己找到數(shù)據(jù)模式。深度學(xué)習(xí)方法非常有用,托算法的福,計算機科學(xué)家不用自己手動設(shè)計算法并監(jiān)督算法的進展。
團隊相信,未來該領(lǐng)域的研究可以提升機器人與外界環(huán)境互動的能力?!爱?dāng)機器人看著人行道,就會憑直覺地知道水泥地是硬的、而草是軟的,從而知道如果他們踩到水泥地和草地上的時候會發(fā)生什么,”O(jiān)wens說,“預(yù)測聲音,對于機器人預(yù)測與外界的物理交互來說,是非常重要的一步。”
論文的共同作者包括最近獲得博士學(xué)位的Philip Isola、MIT教授Edward Adelson、Bill Freeman、Josh McDermott和Antonio Torralba。研究由美國國家科學(xué)基金會(NSF)與殼牌公司(SHELL)提供部分資金支持。Owens同時獲得微軟研究獎學(xué)金支持。論文將于本月在拉斯維加斯舉行的計算機視覺與模式識別(CVPR)年度大會上呈現(xiàn)。
在此,雷鋒網(wǎng)與大家分享論文《視覺指明的聲音》全文。
圖表1:我們訓(xùn)練了一個算法,從無聲的視頻中合成合理的打擊聲音,這項任務(wù)要求具備對材料特性和物理交互的內(nèi)隱知識。在每一個視頻中,有人用一個擊鼓棒打打擊或劃擦不同的物體。我們展示了兩個視頻中的一些幀畫面,下方是預(yù)測的音軌。音軌上的點狀線示意了這些樣本幀的位置。預(yù)測的音軌展示了7秒的聲音,對應(yīng)視頻中的多個打擊。
論文摘要
當(dāng)你擊打或劃擦物品時,物品會發(fā)出獨特的聲音——擊打泥土地面是砰的一聲,擊打陶瓷則是清脆的“?!币宦?。這些聲音告訴我們物品的材料特性,以及在物理交互時的力量和運動。這篇論文中,我們將介紹一個算法,可以從人們擊打物品的視頻中學(xué)會合成聲音。算法使用一個循環(huán)神經(jīng)網(wǎng)絡(luò)來從視頻中預(yù)測聲音特征,然后使用一個基于例子的合成過程,從聲音特征中生成一個波形。我們證明了我們模型產(chǎn)生的聲音非常真實,足夠在“是真是假”的心理物理學(xué)試驗中讓被試莫辨雌雄,而且這些聲音透露了關(guān)于畫面中材料特性的重要信息。
1、簡介
我們的生活中充滿視覺體驗,并伴隨著可預(yù)測的聲音——從陶瓷茶杯放上茶盤的清脆聲音,到鞋子踩在濕軟泥地的咯吱聲。在很多時候,這些聲音不只是從統(tǒng)計學(xué)上與圖像的內(nèi)容有關(guān)——例如,海鷗的鳴叫讓我們想到海灘的畫面,即便你沒有看見海鷗——聲音是由物理交互直接造成的:很多時候,你看得見制造聲音的物體。
我們稱之為“視覺指明的聲音”,并提出了從視頻中預(yù)測聲音的任務(wù),作為一種在視覺畫面中研究物理交互的方式(圖1)。為了精確預(yù)測視頻的聲音,算法必須對其看見的材料特性和正在進行的動作有一定了解。這是一個材料識別任務(wù),但是與該問題的傳統(tǒng)研究不同,我們從來沒有明確告訴算法這是什么材料。算法必須通過識別原始視聽信號中的統(tǒng)計規(guī)則,自己學(xué)會。
我們的靈感來自嬰兒,嬰兒通過觸摸面前的物體,探索環(huán)境中的物理特性,這個過程可能幫助嬰兒學(xué)會一種對于物理世界的直覺理論。近期的研究表明,這個互動過程中所產(chǎn)生的聲音可能影響了學(xué)習(xí)過程。
我們引入了一個模擬這種探索過程的數(shù)據(jù)庫,包含幾百個人們用擊鼓棒擊打、劃擦和戳動物品的視頻。為了從這些視頻中合成聲音,我們呈現(xiàn)了一個算法,使用一個循環(huán)神經(jīng)網(wǎng)絡(luò)來將視頻與聲學(xué)特征匹配起來。然后,算法將聲學(xué)特征轉(zhuǎn)換為波形,例如通過將其與數(shù)據(jù)庫中的例子匹配起來、調(diào)取它們相應(yīng)的聲音,或者通過參數(shù)來轉(zhuǎn)化這些聲學(xué)特征。我們使用一項心理物理學(xué)研究來評估預(yù)測聲音的質(zhì)量,我們還分析了我們的方法在學(xué)習(xí)預(yù)測聲音的任務(wù)中,學(xué)會了什么有關(guān)動作和材料的信息。
圖2:“打擊聲音大全1”數(shù)據(jù)庫。當(dāng)我們打擊這些材料,他們發(fā)出什么聲音?我們收集了978個視頻,視頻中人們用一根擊鼓棒來敲打和劃擦材料,一共包含了46620個動作。我們將這些動作用材料類別標(biāo)簽、打擊位置、動作類型標(biāo)簽(“打擊”還是“劃擦”)和一個反應(yīng)標(biāo)簽(右側(cè))來進行標(biāo)記。我們只在分析聲音預(yù)測模型學(xué)到什么的時候才使用這些標(biāo)簽,在訓(xùn)練時不使用。對于材料類別的子集,我們展示了數(shù)據(jù)庫中一系列視頻的圖像。這里,我們展示了容易看出材料的例子。
2、相關(guān)研究
我們的研究與聲音和材料知覺以及表征學(xué)習(xí)方面的研究緊密相關(guān)。
福萊
將音效加入無聲電影的概念至少要追溯到20世紀(jì)20年代,當(dāng)杰克·福萊及合作者們發(fā)現(xiàn),他們可以在錄音棚里折紙團、折斷蔬菜和搖晃玻璃紙來創(chuàng)造出以假亂真的音效,這種方法現(xiàn)在被叫做“福萊方法”。我們的算法所做的就是一種自動化的福萊方法,不用人類參與,就能合成讓人信以為真的音效。
聲音和材料
在經(jīng)典的數(shù)學(xué)研究中,Kac證明鼓的形狀可以從其發(fā)出的聲音中進行部分還原。同樣地,堅硬度和密度等材料特性也可以從打擊的聲音中得知。近期的研究使用了這些原則,通過測量細微的震動來預(yù)測材料特性,類似的方法也曾使用過,從一個震動膜的高速拍攝視頻中研究人員還原了聲音。我們不使用攝像頭作為測量震動的工具,而是通過識別這個動作在視覺觀察到的環(huán)境中通常發(fā)出什么聲音,來推測一個合理的聲音。
3、“打擊聲音大全”數(shù)據(jù)庫
為了研究視覺指明的聲音,我們收集了一個視頻數(shù)據(jù)庫,視頻里一個人用一根擊鼓棒探測環(huán)境——通過打擊、劃擦和戳動畫面中不同的物體(圖2)。之所以擊鼓棒,是為了聲音產(chǎn)生的方式一致。而且,擊鼓棒很細,不會遮住視頻中太多的畫面,讓我們可以看到打擊后發(fā)生了什么。我們將這項運動稱為“反應(yīng)”,這對于推測材料特性可能很重要——軟的靠墊會比硬的靠墊有更多變形,聲音也會相應(yīng)地有所不同。相同的,打擊地面時,地上的碎石和落葉會彈開,聲音會根據(jù)這項運動而變化(圖2,右側(cè))。
我們的數(shù)據(jù)庫與ImageNet或者Places等以物體或者圖像為中心的傳統(tǒng)數(shù)據(jù)庫不同,它們的圖像重心是整個畫面,我們包括了少量物體的特寫視角。這些圖像反應(yīng)了觀察者的視角,集中觀察正在發(fā)生的互動;它們包含了足夠的細節(jié)來看清紋理和互動后發(fā)生的反應(yīng)。在一些例子中,物體只有一部分是可見的,物體的身份和其他環(huán)境的高級信息都沒法輕易獲知。我們的數(shù)據(jù)庫還與機器人學(xué)中,關(guān)于機器人在環(huán)境中操作物體的研究類似。我們讓人類來收集信息,可以快速獲得真實世界場景中的大量互動。
我們一共獲得了978個視頻,包括室內(nèi)環(huán)境(64%)和室外環(huán)境(36%)。室外環(huán)境經(jīng)常包含散落或者變形的材料,例如草葉,而室內(nèi)環(huán)境包含各種硬質(zhì)材料,例如金屬和木頭。平均每個視頻包含48個動作(大約69%是擊打、31%是劃擦),持續(xù)大約35秒。我們在攝像頭頂上加上一個槍型麥克風(fēng)來錄音,在室外環(huán)境時帶有擋風(fēng)板。為了提升錄音質(zhì)量,我們使用了一個沒有自動增強的獨立錄音器,并對每個音軌應(yīng)用了去噪音算法。
我們通過亞馬遜土耳其機器人(Amazon Mechanical Turk)的在線工人收集了一些動作的語義注釋(63%的動作是用這種方式來標(biāo)記的)。這包括材料標(biāo)記、動作標(biāo)記(“擊打”或者“劃擦”)、反應(yīng)標(biāo)記以及每個動作的像素位置。(每個動作中)這些標(biāo)記的分布展示在圖2中。我們特別強調(diào),語義注釋只在分析時使用:我們的算法是用原始視頻訓(xùn)練的。圖2展現(xiàn)了幾個材料和動作類別。
圖3:(a)選中類別的耳蝸圖。我們基于數(shù)據(jù)庫的每一個聲音中抽取了聲學(xué)信息,計算了我們的子帶-包絡(luò)表征(部分4),然后計算了每個類別的平均值。我們可以看到材料和反應(yīng)的區(qū)別:舉個例子,靠墊聲音在低頻波段包含大量能量。(b)從分類聲音特性中而來的混淆矩陣。序列由混淆矩陣中行的聚集決定,對應(yīng)每一個類別的混淆。
4. 聲音表征
根據(jù)聲音合成的研究,我們將波形分解為子帶包絡(luò)來獲得聲音特征,通過過濾波形、應(yīng)用一個非線性而獲得的簡單表征。我們應(yīng)用了40個在等效矩形帶寬(ERB)上的帶通濾波器,取得反應(yīng)的希爾伯特包絡(luò)。然后,我們將這些包絡(luò)樣本縮小到90Hz(大約每幀3個樣品),并進行壓縮。更具體地來說,我們用波形 w(t) 和過濾器 fn 計算了包絡(luò) Sn(t),計算方法為:
Sn = D ( | ( w * fn ) + jH ( w * fn ) | ) c
其中 H 是希爾伯特轉(zhuǎn)換,D 標(biāo)記縮減采樣,常數(shù) c = 0.3。
所得的表征被稱為“耳蝸圖”。在圖3(a),我們將一系列材料和動作類別的平均耳蝸圖進行了視覺化。這證明了例如靠墊通常比更堅硬物體的聲音有更多的低頻能量。
總體來說,聲音能否很好地反應(yīng)材料特性?為了進行實證測量,我們訓(xùn)練了一個線性 SVM 來預(yù)測我們數(shù)據(jù)庫中的材料類別聲音,使用子帶包絡(luò)作為我們的特性向量。訓(xùn)練前,我們重新在數(shù)據(jù)庫中取樣,這樣每個類別不超過300個例子。所得的材料分類有40.0%的平衡類別精度,混淆矩陣顯示在圖3(b)中。同時,聲音相似的材料之間有很高的混淆度,例如靠墊、布料、硬紙板之間以及混凝土和瓷磚之間。
這些結(jié)果表明,聲音傳達了關(guān)于物品材料的重要信息,以及如果一個算法能夠?qū)W會從視頻中精確預(yù)測聲音,它就能具有這些材料特性的內(nèi)隱知識。我們現(xiàn)在描述一下如何從視頻中推測這些聲音特征。
圖4:我們訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò)來將視頻序列和聲音特征匹配起來。之后,通過使用參數(shù)或基于例子的合成方法,將這些聲音特征轉(zhuǎn)化為波形。我們使用一個卷積網(wǎng)絡(luò)來代表圖像,用一個循環(huán)神經(jīng)網(wǎng)絡(luò)來代表時間序列。我們展示了對應(yīng)某個動作的后續(xù)圖像。
5、預(yù)測視覺指明的聲音
我們將任務(wù)表達為一個回歸問題,目標(biāo)是將一個視頻幀數(shù)列與一個聲音特征數(shù)列匹配起來。我們使用一個循環(huán)神經(jīng)網(wǎng)絡(luò)來解決問題,神經(jīng)網(wǎng)絡(luò)將顏色和動作信息作為輸入,預(yù)測聲音波形的子帶包絡(luò)。最終,我們從這些聲音特征中生成一個波形。我們的神經(jīng)網(wǎng)絡(luò)和合成過程展示在圖4中。
5.1. 回歸聲音特征
對于一輸入圖像數(shù)列 I1、I2、...IN,我們希望預(yù)測一個對應(yīng)的聲音特征數(shù)列 s1, s2, ... sT ,其中 st ∈ R42。這些聲音特征對應(yīng)圖4中的耳蝸圖。我們使用一個循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來解決這個問題,該網(wǎng)絡(luò)將一個卷積神經(jīng)網(wǎng)絡(luò)(CNN)計算的圖像特征作為輸入。
圖像表征
我們發(fā)現(xiàn),在模型里使用一種二流方法來明白地表征運動信息非常有用。雖然二流模型經(jīng)常使用光流,但是由于存在快速的、靈活的運動,我們發(fā)現(xiàn)要獲取精確的流非常困難。我們轉(zhuǎn)而計算每一幀的時空圖像,圖像的三個顏色通道是之前、目前和下一幀的灰度版本。這個模型中,各個通道的衍生對應(yīng)臨時衍生,類似于 3D 視頻CNN。
針對每一幀 t,我們通過集合圖像和第一顏色圖像的CNN特征,建立一個輸入特性向量xt:
xt = [ θ (Ft), θ (I1) ],
其中 θ 是從 AlexNet 架構(gòu)的 fc7 層獲得的CNN特性。在我們的實驗中(部分6),我們或者從頭開始初始化CNN,與RNN一起聯(lián)合訓(xùn)練,或者在初始化時使用權(quán)重,權(quán)重從一個針對 ImageNet 分類進行訓(xùn)練的網(wǎng)絡(luò)中獲得。當(dāng)我們使用預(yù)訓(xùn)練時,我們從速度卷積層中預(yù)先計算出特性,然后只對完全聯(lián)接的層進行微調(diào)。
聲音預(yù)測模型
我們使用一個循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),以及一個將 CNN 特征作為輸入的長短時記憶單元(LSTM)。為了彌補視頻和聲音取樣率的差異,我們將每一個 CNN 特征向量復(fù)制 k 遍,其中 k = [ T / N ] (我們使用了 k = 3)。這產(chǎn)生一個 CNN 特征數(shù)列 x1、x2、... xT,與聲音特征的數(shù)列長度相同。在 RNN 的每一步,我們使用目前的圖像特征向量 xt 來更新隱藏變量 ht 的向量。然后,我們用一個隱藏變量的仿射變換來計算一些聲音特征:
其中 L 是一個更新隱藏狀態(tài)的函數(shù)。訓(xùn)練中,我們將每一步預(yù)測和正確預(yù)測之間的差別最小化:
我們還預(yù)測子帶包絡(luò)的平方根而非包絡(luò)值本身,從而增加損失函數(shù)的強度。為了讓學(xué)習(xí)更簡單,我們使用 PCA,在每一步將投射42維的特征向量轉(zhuǎn)換為一個10維空間,并且預(yù)測這個更低維度的向量。當(dāng)我們評估神經(jīng)網(wǎng)絡(luò)的時候,我們將 PCA 轉(zhuǎn)化顛倒,來獲取良好的特征。我們使用帶有 Caffe 的隨機梯度下降來聯(lián)合訓(xùn)練 RNN 和 CNN。我們還是用了 LSTM 的多個層,層數(shù)由任務(wù)決定。
5.2. 生成波形
我們考慮了兩種從聲音特征中生成波形的方法。第一種是簡單參數(shù)合成方法,對一個白噪音迭代性地加入子帶包絡(luò)(我們只使用了一次迭代)。我們發(fā)現(xiàn),結(jié)果對于一些材料來說可能不自然,尤其是對于木頭和金屬等硬質(zhì)材料——也許因為我們預(yù)測的聲音,缺少真實聲音那種完善的結(jié)構(gòu)和隨機的變化。
因此,我們還考慮了一種基于例子的合成方法,將預(yù)測聲音與訓(xùn)練庫中最接近的樣本對齊。我們設(shè)置一個查詢向量,方法是通過集合預(yù)測聲音特征數(shù)列 s1,...,sT(或者是其子數(shù)列),找到訓(xùn)練集中最近的鄰居(以L1距離為測量),取其相應(yīng)的波形。
6、實驗
我們將聲音預(yù)測模型應(yīng)用在多個任務(wù)上,并用人類研究和自動化度量對其進行評估。
6.1. 聲音預(yù)測任務(wù)
為了從聲音預(yù)測中分離出監(jiān)測問題——也就是說,判斷一個會產(chǎn)生聲音的動作是否、以及何時會發(fā)生——我們考慮了評估兩種類型的視頻。首先,我們集中在預(yù)測問題,只考慮以振幅峰值為中心的視頻。這些峰值總體上與動作對應(yīng),通過讓聲音以此為中心,我們可以與沒有匹配機制的模型比較,匹配機制將聲音與動作時間匹配(例如使用 CNN 特征基于最近鄰居搜索的機制)。要監(jiān)測這些聲學(xué)峰值,我們在聲音幅度上使用均值平移的一個變化版本,接著使用非最大抑制。然后,我們圍繞每一個監(jiān)測到的峰值取樣,取一個15幀的數(shù)列(大約0.5秒)。
對第二項任務(wù),我們稱為“監(jiān)測和預(yù)測”任務(wù),我們用更長的數(shù)列來訓(xùn)練模型(大約2秒長),一致從0.5秒跨度的訓(xùn)練視頻中取樣。然后我們在完整程度的視頻上評估我們的模型。因為要以精確到子幀的精度監(jiān)測一個動作的時間節(jié)點常常很難,我們允許預(yù)測特征在與標(biāo)準(zhǔn)比較之前出現(xiàn)一些小變化。我們還在 RNN輸出中引入了一個延遲,這讓我們的模型可以在計算聲音特征前,預(yù)見到未來的幾個幀。對于這兩項任務(wù),我們將完整長度的視頻分割為訓(xùn)練和測試組(75%訓(xùn)練、25%測試)。
模型
視頻中,我們將我們的模型與基于圖像的最近鄰居搜索進行比較。我們從一個 CNN 中計算出了fc7特征,CNN 在 ImageNet 上,在每一個數(shù)列的中心幀做預(yù)先訓(xùn)練,從結(jié)構(gòu)上說,這個幀是動作產(chǎn)生聲音的幀。為了在這一模型下為新的數(shù)列合成聲音,我們將其中心幀匹配到訓(xùn)練庫中,取用對應(yīng)最佳匹配的聲音(同樣也是在中心幀)。我們考慮了變化版本,CNN 特征是用 RGB 圖像、用(三幀的)時空圖像和用兩項特征的集合計算出來。
我們還探索了模型的各種變化版本,來理解不同設(shè)計決定的影響。我們包括了有或沒有 ImageNet 預(yù)先訓(xùn)練的模型;有或沒有時空圖像;以及基于例子和參數(shù)波形生成。最終,我們包括了一個模型,其中 RNN 連接斷裂(隱藏狀態(tài)設(shè)置為步驟之間為零)。
對于進行基于例子波形生成的 RNN 模型,我們在訓(xùn)練庫中使用了中心動作,作為數(shù)據(jù)庫例子。我們在整個數(shù)列使用聲音特征來進行查詢。檢測-預(yù)測任務(wù)中的長視頻中包含多個動作聲音,這就不可能做到了。我們首先在參數(shù)顛倒的波形振幅中檢測峰值,然后將聲音特征匹配在一個小的(8幀)窗口,從峰值前一幀開始。
6.2. 評估預(yù)測聲音
我們希望評估模型生成的聲音質(zhì)量,并理解模型關(guān)于物理交互和材料都學(xué)到了什么。首先,我們使用自動化度量,來測量音量等客觀的聲學(xué)特征,并使用心理物理學(xué)實驗來評估聲音對人類觀察者來說是否能夠以假亂真。然后,我們評估預(yù)測聲音對于材料和動作分類是否有效。
圖5:(a) 我們計算了實驗被試選擇算法合成的聲音、而非真實聲音的比例。我們完整的系統(tǒng)是在ImageNet上經(jīng)過預(yù)先訓(xùn)練,并使用基于例子的合成來方法來生成波形,顯著優(yōu)于基于圖片配對的系統(tǒng)。(b) 在我們的算法看來,聲音聽起來都是什么樣的?我們將一個用真實聲音訓(xùn)練的分類器應(yīng)用在我們算法產(chǎn)生的聲音上,從而生成一個混淆矩陣。行對應(yīng)單個類別的混淆。圖3 (b) 展示了一個真實聲音的混淆矩陣。
心理物理學(xué)實驗
要測試模型產(chǎn)生的聲音是否根據(jù)不同的動作和材料恰當(dāng)?shù)剡M行了變化,我們使用亞馬遜土耳其機器人進行了一項心理物理學(xué)實驗。我們使用了一個選擇題,其中有兩個選項,實驗被試需要區(qū)分真實的和虛假的聲音,必須選擇其中一項。我們給被試展示了兩個撞擊事件的視頻——一個播放錄音聲音,一個播放合成聲音。然后,被試選出真實的聲音。用來合成的算法是根據(jù)每一個視頻隨機選出,兩個視頻的順序也是隨機選出。我們從每個完整長度的視頻中隨機取樣了15個中心為撞擊的數(shù)列,給每個被試在每個視頻中最多展示1個撞擊。實驗開始時,我們透露了5個練習(xí)數(shù)列的正確答案。
我們將我們的模型與其他幾個模型進行比較(圖表5),測量被試將算法的結(jié)果誤以為真實結(jié)果的頻率。我們發(fā)現(xiàn),我們完整的系統(tǒng)——具有RGB和時空輸入、RNN 連接、ImageNet 預(yù)測試以及基于例子的波形生成——顯著優(yōu)于最好的圖像匹配方法和簡單的基準(zhǔn),其中基準(zhǔn)的聲音隨機從訓(xùn)練庫(p<0.001,帶有一個雙面的 t 測試)。我們從頭開始訓(xùn)練的模型也比最好的圖片匹配基準(zhǔn)顯著更好(p = 0.02)。這個任務(wù)中,我們不認為在帶有 RGB 和時空圖像的模型與只有 RGB 的模型之間的區(qū)別足夠顯著(p = 0.08)。
我們發(fā)現(xiàn),RNN 連接破裂的模型經(jīng)常無法探測到撞擊的位置,而且模型預(yù)測的聲音振幅偏低。結(jié)果是,它無法找到好的匹配,并且在自動化度量中表現(xiàn)不佳。使用參數(shù)波形生成的模型(而非基于例子的模型)在不同類別中表現(xiàn)有很大差別。當(dāng)模型針對樹葉和泥土等材料,在相對噪音較多的環(huán)境中表現(xiàn)不錯,而針對木頭和金屬等硬質(zhì)材料表現(xiàn)不佳(泥土的混淆率為63% ± 6%,而金屬的混淆率為19% ± 5%)。
圖7:心理物理學(xué)實驗的語義分析。我們展示了針對每一個材料、動作和反應(yīng)類別,算法成功糊弄被試的幾率。誤差條形圖是基于每個類別中被試反應(yīng)的數(shù)量。我們的方法顯著優(yōu)于表現(xiàn)最好的圖像匹配方法。
圖7中,我們展現(xiàn)了根據(jù)語義類別進行分解的結(jié)果。對于某些類別(例如樹葉和草),被試經(jīng)常被我們的結(jié)果給糊弄住,他們要分辨真實的與合成的聲音基本靠運氣。對于被試持續(xù)選擇合成聲音的視頻片段,可能是因為它們對于物體類別來說更為典型。舉個例子,打擊落葉的聲音有很多變化,可能在視頻中沒有完全展示出來:我們可能聽到的是葉子本身與葉子底下某些東西的結(jié)合聲音。很多時候,葉子的聲音對于被試來說聽起來反而不自然。與之相比,我們發(fā)現(xiàn)被試很擅長判斷真實與合成的靠墊聲音,也許因為人們對靠墊應(yīng)該是什么聲音會更加敏感。
聲學(xué)度量
我們測量了若干個聲音的量化特性。首先,我們評估了聲音的音量,我們認為這是聲音全過程中最大的能量,我們將能量測量為每一步(壓縮的)子帶包絡(luò)的 L2。第二步,我們比較聲音的頻譜質(zhì)心,測量方式為取動作中心的單個幀(大約0.03秒)頻率子帶的中心。我們發(fā)現(xiàn),在兩個度量中,從均方誤差和相關(guān)系數(shù)的角度來說,網(wǎng)絡(luò)比圖片匹配方法都明顯更為精確(圖5(a))。
圖6:(a) 我們運行了完整系統(tǒng)的各個版本,以及使用RGB和時空圖像的圖片匹配方法。對于每一個模型,我們包括了一個先知模型,從有相同真實標(biāo)簽的視頻中獲得聲音樣本。(b) 動作探測的查準(zhǔn)-召回曲線,在重新生成預(yù)測波形后探測打擊而獲得。使用時空圖像的方法優(yōu)于只使用 RGB 的方法。
先知結(jié)果
材料類別信息有多有用?我們進行了第二項研究,我們探索了如果我們控制材料識別的精度,表現(xiàn)會有什么變化。使用帶有材料注釋的數(shù)據(jù)子集,我們創(chuàng)建了一個模型,從同樣的真實類別中選擇隨機聲音作為輸入。我們還創(chuàng)建了一系列先知模型,使用這項材料標(biāo)記(圖6(a))。針對表現(xiàn)最好的圖像匹配模型(RGB+時空),我們限制匹配范圍為具有與輸入同樣標(biāo)示(對于基于例子合成的方法也是同樣)。我們發(fā)現(xiàn),雖然知道材料對于每一種方法來說都有幫助,但是這還不足夠,因為先知模型沒有超越我們的模型。尤其是我們模型的先知版本明顯優(yōu)于隨機取樣的先知(p < 10-4)。
圖8:自動聲音預(yù)測結(jié)果。我們選擇了一些具有代表性的視頻數(shù)列的耳蝸圖,左側(cè)每個數(shù)列都有一個樣本幀。每個耳蝸圖中,x 軸上的黑色三角形標(biāo)記除了幀的位置。值得注意的是,算法合成的耳蝸圖與真實耳蝸圖的整體結(jié)構(gòu)相匹配。耳蝸圖里的黑線標(biāo)記打擊動作,算法經(jīng)常能探測到。算法抓取聲音的時間和光譜結(jié)構(gòu)。另外,算法傾向于預(yù)測打擊軟靠墊等更低的音調(diào),以及擊鼓棒敲打木頭扶手的更高敲擊音。一個普遍的錯誤模式是,算法會忽略打擊(欄桿的例子),或者錯誤“幻聽”(靠墊的例子)。這在擊鼓棒敲打不規(guī)律的時候經(jīng)常發(fā)生。
動作監(jiān)測
我們還使用了我們的方法,來為(沒有調(diào)整中心的)長視頻生成聲音,這樣我們可以評估它們監(jiān)測動作事件的能力。為此我們使用了參數(shù)方法(5.2部分),從聲音預(yù)測中生成了一個波形,并使用 6.1. 部分中的方法來監(jiān)測振幅峰值。然后,我們將這些振幅峰值的時間點與真實的時間點進行比較,如果預(yù)測的峰值出現(xiàn)在 0.1 秒以內(nèi)我們就認為成功監(jiān)測到了動作。我們計算了一個查準(zhǔn)-召回曲線,使用振幅作為代理,用不同的值重新設(shè)置波形并運行峰值監(jiān)測程序。在圖6(b),我們將我們的模型與只使用RGB圖像的模型比較,發(fā)現(xiàn)時空圖像顯著改善了結(jié)果。我們在圖8中提供了定性例子。
6.3. 通過預(yù)測聲音了解材料和動作
通過學(xué)習(xí)預(yù)測聲音,神經(jīng)網(wǎng)絡(luò)有沒有同時學(xué)到一些關(guān)于材料和動作的信息呢?為了解答這個問題,我們測試了網(wǎng)絡(luò)的輸出聲音是否能體現(xiàn)材料和動作的類別。我們將基于真實聲音特征來訓(xùn)練預(yù)測材料和動作類型的同一個SVM,用在我們網(wǎng)絡(luò)預(yù)測的聲音上。在這個評估機制下,神經(jīng)網(wǎng)絡(luò)的聲音僅僅可以區(qū)分是不夠的:為了能讓從未見過預(yù)測聲音的SVM正確分類,它們必須足夠接近真實的聲音。要避免預(yù)先訓(xùn)練的影響,我們使用了從頭開始訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。我們需要指出,這種評估方法和最近的無監(jiān)督學(xué)習(xí)技術(shù)不同,后者利用網(wǎng)絡(luò)內(nèi)部表征來重新訓(xùn)練分類器,而非利用輸出的標(biāo)準(zhǔn)版本。
我們在材料類別和動作類別上都使用了SVM。生成的材料類別混淆矩陣在圖5(b)中,平衡精度為 18.2%(有了預(yù)先訓(xùn)練后,這項結(jié)果提升到 23.4%)。這項精度表明,我們的模型學(xué)會了一個輸出表征,具有關(guān)于材料的信息,雖然模型訓(xùn)練的目的是預(yù)測聲音。在從聲音預(yù)測動作的任務(wù)中(同樣也是使用用真實聲音訓(xùn)練的SVM分類器),我們能夠以 67.9% 的平均類別精度區(qū)分擊打和劃擦(在將每一個類別重新取樣為各2000個例子后)。同一個分類器在真實聲音中具有 84.1% 的精度。
材料類別的混淆經(jīng)常出現(xiàn)在同一個上級類別中。舉個例子,軟的材料,例如布料,經(jīng)常被混淆為靠墊等其他軟質(zhì)材料,對于硬質(zhì)材料也是同樣,例如瓷磚經(jīng)常被誤以為是混凝土。從量上說,分類器能以 69.0% 的精度區(qū)分軟硬質(zhì)材料。我們定義軟質(zhì)材料為 { 樹葉,草,橡膠,布靠墊,塑料袋 } ,而硬質(zhì)材料為 { 碎石,石頭,瓷磚,混凝土,木頭,陶瓷,塑料,干墻,玻璃,金屬 }。
我們還提供了一個混淆矩陣,直接從基于視覺特征的材料類別預(yù)測中獲得。這種視覺分類器犯的錯誤經(jīng)常與聲音分類器的錯誤不同(圖3)。舉個例子,視覺分類器能夠區(qū)分具有非常不同視覺外表的類別,例如紙板和靠墊——但是由于兩者都是低音調(diào)聲音,有時候聲音分類器就會犯錯。另一方面,室外環(huán)境的材料更容易混淆,例如巖石和樹葉——這兩種材料聽起來非常不同,但是經(jīng)常在畫面中同時出現(xiàn)。當(dāng)我們用分類聲音預(yù)測來分析我們的模型時,產(chǎn)生的混淆矩陣包含兩種錯誤類型:當(dāng)模型錯誤識別被打擊的物體,這是視覺分析錯誤;當(dāng)模型生成的聲音不夠接近真實聲音,這是聲音合成錯誤。
7、討論
這項研究中,我們提出合成視覺指明的聲音——這個問題要求算法學(xué)習(xí)材料特性和物理交互。我們引入了一個研究這項任務(wù)的數(shù)據(jù)庫,含有一個人用擊鼓棒探測環(huán)境的視頻,以及一個基于循環(huán)神經(jīng)網(wǎng)絡(luò)的算法。我們用心理物理學(xué)實驗和自動化度量來評估我們方法的質(zhì)量,顯示了我們算法的表現(xiàn)顯著優(yōu)于基準(zhǔn)。
我們認為這項研究為未來研究打開了兩個可能的方向。第一個方向是從視頻中生成現(xiàn)實的聲音,將制造聲音作為目的本身。第二個方向是使用聲音和材料交互,作為實現(xiàn)物理環(huán)境理解的一個階梯。我們將會發(fā)布“打擊聲音大全”數(shù)據(jù)庫以及我們算法的代碼。
via RoboHub
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。