0
本文作者: AI科技評(píng)論 | 2016-06-15 22:00 |
圖片來(lái)源:TechInsider
距離“圖靈測(cè)試”的最初問(wèn)世已經(jīng)過(guò)了70年,“圖靈測(cè)試”作為科幻元素經(jīng)常出現(xiàn)在電影中,可是現(xiàn)實(shí)中仍然沒(méi)有人完整地回答過(guò)這個(gè)問(wèn)題:我們能否創(chuàng)造出行為與人類(lèi)毫無(wú)二致、讓人“難辨雌雄”的智能機(jī)器?
12年的時(shí)候,MIT的研究人員開(kāi)發(fā)了一個(gè)通過(guò)“視覺(jué)”圖靈測(cè)試的系統(tǒng),可以輸出讓人類(lèi)都難以分別的手寫(xiě)字?,F(xiàn)在,MIT計(jì)算機(jī)與人工智能實(shí)驗(yàn)室(CSAIL)展示了一個(gè)深度學(xué)習(xí)算法,可以通過(guò)聲音的圖靈測(cè)試:當(dāng)研究員將一個(gè)擊打物品的短視頻交給算法,算法就可以生成一個(gè)打擊的聲音,真實(shí)到可以糊弄住觀看視頻的人類(lèi)。點(diǎn)擊連接中的視頻,看看算法生成的聲音能不能糊弄住你。
這個(gè)項(xiàng)目的意義不只是挑戰(zhàn)圖靈測(cè)試的“聰明”把戲,研究人員認(rèn)為,未來(lái)該算法的其他版本可以為電影和電視劇自動(dòng)生成音效,也可以幫助機(jī)器人更好地理解物品的特性。
項(xiàng)目論文的第一作者、CSAIL的博士生Andrew Owens說(shuō):“當(dāng)你的手指劃過(guò)玻璃酒杯的杯口,酒杯發(fā)出的聲音可以反映出杯中有多少液體。以聲音為模型的算法可以告訴我們物品的形狀、材質(zhì)等重要信息,以及物品與外界互動(dòng)時(shí)的力量和運(yùn)動(dòng)?!?/p>
團(tuán)隊(duì)使用了“深度學(xué)習(xí)”領(lǐng)域的技術(shù),該技術(shù)需要用大量數(shù)據(jù),教會(huì)計(jì)算機(jī)自己找到數(shù)據(jù)模式。深度學(xué)習(xí)方法非常有用,托算法的福,計(jì)算機(jī)科學(xué)家不用自己手動(dòng)設(shè)計(jì)算法并監(jiān)督算法的進(jìn)展。
團(tuán)隊(duì)相信,未來(lái)該領(lǐng)域的研究可以提升機(jī)器人與外界環(huán)境互動(dòng)的能力?!爱?dāng)機(jī)器人看著人行道,就會(huì)憑直覺(jué)地知道水泥地是硬的、而草是軟的,從而知道如果他們踩到水泥地和草地上的時(shí)候會(huì)發(fā)生什么,”O(jiān)wens說(shuō),“預(yù)測(cè)聲音,對(duì)于機(jī)器人預(yù)測(cè)與外界的物理交互來(lái)說(shuō),是非常重要的一步?!?/p>
論文的共同作者包括最近獲得博士學(xué)位的Philip Isola、MIT教授Edward Adelson、Bill Freeman、Josh McDermott和Antonio Torralba。研究由美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)與殼牌公司(SHELL)提供部分資金支持。Owens同時(shí)獲得微軟研究獎(jiǎng)學(xué)金支持。論文將于本月在拉斯維加斯舉行的計(jì)算機(jī)視覺(jué)與模式識(shí)別(CVPR)年度大會(huì)上呈現(xiàn)。
在此,雷鋒網(wǎng)與大家分享論文《視覺(jué)指明的聲音》全文。
圖表1:我們訓(xùn)練了一個(gè)算法,從無(wú)聲的視頻中合成合理的打擊聲音,這項(xiàng)任務(wù)要求具備對(duì)材料特性和物理交互的內(nèi)隱知識(shí)。在每一個(gè)視頻中,有人用一個(gè)擊鼓棒打打擊或劃擦不同的物體。我們展示了兩個(gè)視頻中的一些幀畫(huà)面,下方是預(yù)測(cè)的音軌。音軌上的點(diǎn)狀線示意了這些樣本幀的位置。預(yù)測(cè)的音軌展示了7秒的聲音,對(duì)應(yīng)視頻中的多個(gè)打擊。
論文摘要
當(dāng)你擊打或劃擦物品時(shí),物品會(huì)發(fā)出獨(dú)特的聲音——擊打泥土地面是砰的一聲,擊打陶瓷則是清脆的“?!币宦?。這些聲音告訴我們物品的材料特性,以及在物理交互時(shí)的力量和運(yùn)動(dòng)。這篇論文中,我們將介紹一個(gè)算法,可以從人們擊打物品的視頻中學(xué)會(huì)合成聲音。算法使用一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)從視頻中預(yù)測(cè)聲音特征,然后使用一個(gè)基于例子的合成過(guò)程,從聲音特征中生成一個(gè)波形。我們證明了我們模型產(chǎn)生的聲音非常真實(shí),足夠在“是真是假”的心理物理學(xué)試驗(yàn)中讓被試莫辨雌雄,而且這些聲音透露了關(guān)于畫(huà)面中材料特性的重要信息。
1、簡(jiǎn)介
我們的生活中充滿視覺(jué)體驗(yàn),并伴隨著可預(yù)測(cè)的聲音——從陶瓷茶杯放上茶盤(pán)的清脆聲音,到鞋子踩在濕軟泥地的咯吱聲。在很多時(shí)候,這些聲音不只是從統(tǒng)計(jì)學(xué)上與圖像的內(nèi)容有關(guān)——例如,海鷗的鳴叫讓我們想到海灘的畫(huà)面,即便你沒(méi)有看見(jiàn)海鷗——聲音是由物理交互直接造成的:很多時(shí)候,你看得見(jiàn)制造聲音的物體。
我們稱(chēng)之為“視覺(jué)指明的聲音”,并提出了從視頻中預(yù)測(cè)聲音的任務(wù),作為一種在視覺(jué)畫(huà)面中研究物理交互的方式(圖1)。為了精確預(yù)測(cè)視頻的聲音,算法必須對(duì)其看見(jiàn)的材料特性和正在進(jìn)行的動(dòng)作有一定了解。這是一個(gè)材料識(shí)別任務(wù),但是與該問(wèn)題的傳統(tǒng)研究不同,我們從來(lái)沒(méi)有明確告訴算法這是什么材料。算法必須通過(guò)識(shí)別原始視聽(tīng)信號(hào)中的統(tǒng)計(jì)規(guī)則,自己學(xué)會(huì)。
我們的靈感來(lái)自嬰兒,嬰兒通過(guò)觸摸面前的物體,探索環(huán)境中的物理特性,這個(gè)過(guò)程可能幫助嬰兒學(xué)會(huì)一種對(duì)于物理世界的直覺(jué)理論。近期的研究表明,這個(gè)互動(dòng)過(guò)程中所產(chǎn)生的聲音可能影響了學(xué)習(xí)過(guò)程。
我們引入了一個(gè)模擬這種探索過(guò)程的數(shù)據(jù)庫(kù),包含幾百個(gè)人們用擊鼓棒擊打、劃擦和戳動(dòng)物品的視頻。為了從這些視頻中合成聲音,我們呈現(xiàn)了一個(gè)算法,使用一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)將視頻與聲學(xué)特征匹配起來(lái)。然后,算法將聲學(xué)特征轉(zhuǎn)換為波形,例如通過(guò)將其與數(shù)據(jù)庫(kù)中的例子匹配起來(lái)、調(diào)取它們相應(yīng)的聲音,或者通過(guò)參數(shù)來(lái)轉(zhuǎn)化這些聲學(xué)特征。我們使用一項(xiàng)心理物理學(xué)研究來(lái)評(píng)估預(yù)測(cè)聲音的質(zhì)量,我們還分析了我們的方法在學(xué)習(xí)預(yù)測(cè)聲音的任務(wù)中,學(xué)會(huì)了什么有關(guān)動(dòng)作和材料的信息。
圖2:“打擊聲音大全1”數(shù)據(jù)庫(kù)。當(dāng)我們打擊這些材料,他們發(fā)出什么聲音?我們收集了978個(gè)視頻,視頻中人們用一根擊鼓棒來(lái)敲打和劃擦材料,一共包含了46620個(gè)動(dòng)作。我們將這些動(dòng)作用材料類(lèi)別標(biāo)簽、打擊位置、動(dòng)作類(lèi)型標(biāo)簽(“打擊”還是“劃擦”)和一個(gè)反應(yīng)標(biāo)簽(右側(cè))來(lái)進(jìn)行標(biāo)記。我們只在分析聲音預(yù)測(cè)模型學(xué)到什么的時(shí)候才使用這些標(biāo)簽,在訓(xùn)練時(shí)不使用。對(duì)于材料類(lèi)別的子集,我們展示了數(shù)據(jù)庫(kù)中一系列視頻的圖像。這里,我們展示了容易看出材料的例子。
2、相關(guān)研究
我們的研究與聲音和材料知覺(jué)以及表征學(xué)習(xí)方面的研究緊密相關(guān)。
福萊
將音效加入無(wú)聲電影的概念至少要追溯到20世紀(jì)20年代,當(dāng)杰克·福萊及合作者們發(fā)現(xiàn),他們可以在錄音棚里折紙團(tuán)、折斷蔬菜和搖晃玻璃紙來(lái)創(chuàng)造出以假亂真的音效,這種方法現(xiàn)在被叫做“福萊方法”。我們的算法所做的就是一種自動(dòng)化的福萊方法,不用人類(lèi)參與,就能合成讓人信以為真的音效。
聲音和材料
在經(jīng)典的數(shù)學(xué)研究中,Kac證明鼓的形狀可以從其發(fā)出的聲音中進(jìn)行部分還原。同樣地,堅(jiān)硬度和密度等材料特性也可以從打擊的聲音中得知。近期的研究使用了這些原則,通過(guò)測(cè)量細(xì)微的震動(dòng)來(lái)預(yù)測(cè)材料特性,類(lèi)似的方法也曾使用過(guò),從一個(gè)震動(dòng)膜的高速拍攝視頻中研究人員還原了聲音。我們不使用攝像頭作為測(cè)量震動(dòng)的工具,而是通過(guò)識(shí)別這個(gè)動(dòng)作在視覺(jué)觀察到的環(huán)境中通常發(fā)出什么聲音,來(lái)推測(cè)一個(gè)合理的聲音。
3、“打擊聲音大全”數(shù)據(jù)庫(kù)
為了研究視覺(jué)指明的聲音,我們收集了一個(gè)視頻數(shù)據(jù)庫(kù),視頻里一個(gè)人用一根擊鼓棒探測(cè)環(huán)境——通過(guò)打擊、劃擦和戳動(dòng)畫(huà)面中不同的物體(圖2)。之所以擊鼓棒,是為了聲音產(chǎn)生的方式一致。而且,擊鼓棒很細(xì),不會(huì)遮住視頻中太多的畫(huà)面,讓我們可以看到打擊后發(fā)生了什么。我們將這項(xiàng)運(yùn)動(dòng)稱(chēng)為“反應(yīng)”,這對(duì)于推測(cè)材料特性可能很重要——軟的靠墊會(huì)比硬的靠墊有更多變形,聲音也會(huì)相應(yīng)地有所不同。相同的,打擊地面時(shí),地上的碎石和落葉會(huì)彈開(kāi),聲音會(huì)根據(jù)這項(xiàng)運(yùn)動(dòng)而變化(圖2,右側(cè))。
我們的數(shù)據(jù)庫(kù)與ImageNet或者Places等以物體或者圖像為中心的傳統(tǒng)數(shù)據(jù)庫(kù)不同,它們的圖像重心是整個(gè)畫(huà)面,我們包括了少量物體的特寫(xiě)視角。這些圖像反應(yīng)了觀察者的視角,集中觀察正在發(fā)生的互動(dòng);它們包含了足夠的細(xì)節(jié)來(lái)看清紋理和互動(dòng)后發(fā)生的反應(yīng)。在一些例子中,物體只有一部分是可見(jiàn)的,物體的身份和其他環(huán)境的高級(jí)信息都沒(méi)法輕易獲知。我們的數(shù)據(jù)庫(kù)還與機(jī)器人學(xué)中,關(guān)于機(jī)器人在環(huán)境中操作物體的研究類(lèi)似。我們讓人類(lèi)來(lái)收集信息,可以快速獲得真實(shí)世界場(chǎng)景中的大量互動(dòng)。
我們一共獲得了978個(gè)視頻,包括室內(nèi)環(huán)境(64%)和室外環(huán)境(36%)。室外環(huán)境經(jīng)常包含散落或者變形的材料,例如草葉,而室內(nèi)環(huán)境包含各種硬質(zhì)材料,例如金屬和木頭。平均每個(gè)視頻包含48個(gè)動(dòng)作(大約69%是擊打、31%是劃擦),持續(xù)大約35秒。我們?cè)跀z像頭頂上加上一個(gè)槍型麥克風(fēng)來(lái)錄音,在室外環(huán)境時(shí)帶有擋風(fēng)板。為了提升錄音質(zhì)量,我們使用了一個(gè)沒(méi)有自動(dòng)增強(qiáng)的獨(dú)立錄音器,并對(duì)每個(gè)音軌應(yīng)用了去噪音算法。
我們通過(guò)亞馬遜土耳其機(jī)器人(Amazon Mechanical Turk)的在線工人收集了一些動(dòng)作的語(yǔ)義注釋?zhuān)?3%的動(dòng)作是用這種方式來(lái)標(biāo)記的)。這包括材料標(biāo)記、動(dòng)作標(biāo)記(“擊打”或者“劃擦”)、反應(yīng)標(biāo)記以及每個(gè)動(dòng)作的像素位置。(每個(gè)動(dòng)作中)這些標(biāo)記的分布展示在圖2中。我們特別強(qiáng)調(diào),語(yǔ)義注釋只在分析時(shí)使用:我們的算法是用原始視頻訓(xùn)練的。圖2展現(xiàn)了幾個(gè)材料和動(dòng)作類(lèi)別。
圖3:(a)選中類(lèi)別的耳蝸圖。我們基于數(shù)據(jù)庫(kù)的每一個(gè)聲音中抽取了聲學(xué)信息,計(jì)算了我們的子帶-包絡(luò)表征(部分4),然后計(jì)算了每個(gè)類(lèi)別的平均值。我們可以看到材料和反應(yīng)的區(qū)別:舉個(gè)例子,靠墊聲音在低頻波段包含大量能量。(b)從分類(lèi)聲音特性中而來(lái)的混淆矩陣。序列由混淆矩陣中行的聚集決定,對(duì)應(yīng)每一個(gè)類(lèi)別的混淆。
4. 聲音表征
根據(jù)聲音合成的研究,我們將波形分解為子帶包絡(luò)來(lái)獲得聲音特征,通過(guò)過(guò)濾波形、應(yīng)用一個(gè)非線性而獲得的簡(jiǎn)單表征。我們應(yīng)用了40個(gè)在等效矩形帶寬(ERB)上的帶通濾波器,取得反應(yīng)的希爾伯特包絡(luò)。然后,我們將這些包絡(luò)樣本縮小到90Hz(大約每幀3個(gè)樣品),并進(jìn)行壓縮。更具體地來(lái)說(shuō),我們用波形 w(t) 和過(guò)濾器 fn 計(jì)算了包絡(luò) Sn(t),計(jì)算方法為:
Sn = D ( | ( w * fn ) + jH ( w * fn ) | ) c
其中 H 是希爾伯特轉(zhuǎn)換,D 標(biāo)記縮減采樣,常數(shù) c = 0.3。
所得的表征被稱(chēng)為“耳蝸圖”。在圖3(a),我們將一系列材料和動(dòng)作類(lèi)別的平均耳蝸圖進(jìn)行了視覺(jué)化。這證明了例如靠墊通常比更堅(jiān)硬物體的聲音有更多的低頻能量。
總體來(lái)說(shuō),聲音能否很好地反應(yīng)材料特性?為了進(jìn)行實(shí)證測(cè)量,我們訓(xùn)練了一個(gè)線性 SVM 來(lái)預(yù)測(cè)我們數(shù)據(jù)庫(kù)中的材料類(lèi)別聲音,使用子帶包絡(luò)作為我們的特性向量。訓(xùn)練前,我們重新在數(shù)據(jù)庫(kù)中取樣,這樣每個(gè)類(lèi)別不超過(guò)300個(gè)例子。所得的材料分類(lèi)有40.0%的平衡類(lèi)別精度,混淆矩陣顯示在圖3(b)中。同時(shí),聲音相似的材料之間有很高的混淆度,例如靠墊、布料、硬紙板之間以及混凝土和瓷磚之間。
這些結(jié)果表明,聲音傳達(dá)了關(guān)于物品材料的重要信息,以及如果一個(gè)算法能夠?qū)W會(huì)從視頻中精確預(yù)測(cè)聲音,它就能具有這些材料特性的內(nèi)隱知識(shí)。我們現(xiàn)在描述一下如何從視頻中推測(cè)這些聲音特征。
圖4:我們訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)將視頻序列和聲音特征匹配起來(lái)。之后,通過(guò)使用參數(shù)或基于例子的合成方法,將這些聲音特征轉(zhuǎn)化為波形。我們使用一個(gè)卷積網(wǎng)絡(luò)來(lái)代表圖像,用一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)代表時(shí)間序列。我們展示了對(duì)應(yīng)某個(gè)動(dòng)作的后續(xù)圖像。
5、預(yù)測(cè)視覺(jué)指明的聲音
我們將任務(wù)表達(dá)為一個(gè)回歸問(wèn)題,目標(biāo)是將一個(gè)視頻幀數(shù)列與一個(gè)聲音特征數(shù)列匹配起來(lái)。我們使用一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)解決問(wèn)題,神經(jīng)網(wǎng)絡(luò)將顏色和動(dòng)作信息作為輸入,預(yù)測(cè)聲音波形的子帶包絡(luò)。最終,我們從這些聲音特征中生成一個(gè)波形。我們的神經(jīng)網(wǎng)絡(luò)和合成過(guò)程展示在圖4中。
5.1. 回歸聲音特征
對(duì)于一輸入圖像數(shù)列 I1、I2、...IN,我們希望預(yù)測(cè)一個(gè)對(duì)應(yīng)的聲音特征數(shù)列 s1, s2, ... sT ,其中 st ∈ R42。這些聲音特征對(duì)應(yīng)圖4中的耳蝸圖。我們使用一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來(lái)解決這個(gè)問(wèn)題,該網(wǎng)絡(luò)將一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)計(jì)算的圖像特征作為輸入。
圖像表征
我們發(fā)現(xiàn),在模型里使用一種二流方法來(lái)明白地表征運(yùn)動(dòng)信息非常有用。雖然二流模型經(jīng)常使用光流,但是由于存在快速的、靈活的運(yùn)動(dòng),我們發(fā)現(xiàn)要獲取精確的流非常困難。我們轉(zhuǎn)而計(jì)算每一幀的時(shí)空?qǐng)D像,圖像的三個(gè)顏色通道是之前、目前和下一幀的灰度版本。這個(gè)模型中,各個(gè)通道的衍生對(duì)應(yīng)臨時(shí)衍生,類(lèi)似于 3D 視頻CNN。
針對(duì)每一幀 t,我們通過(guò)集合圖像和第一顏色圖像的CNN特征,建立一個(gè)輸入特性向量xt:
xt = [ θ (Ft), θ (I1) ],
其中 θ 是從 AlexNet 架構(gòu)的 fc7 層獲得的CNN特性。在我們的實(shí)驗(yàn)中(部分6),我們或者從頭開(kāi)始初始化CNN,與RNN一起聯(lián)合訓(xùn)練,或者在初始化時(shí)使用權(quán)重,權(quán)重從一個(gè)針對(duì) ImageNet 分類(lèi)進(jìn)行訓(xùn)練的網(wǎng)絡(luò)中獲得。當(dāng)我們使用預(yù)訓(xùn)練時(shí),我們從速度卷積層中預(yù)先計(jì)算出特性,然后只對(duì)完全聯(lián)接的層進(jìn)行微調(diào)。
聲音預(yù)測(cè)模型
我們使用一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),以及一個(gè)將 CNN 特征作為輸入的長(zhǎng)短時(shí)記憶單元(LSTM)。為了彌補(bǔ)視頻和聲音取樣率的差異,我們將每一個(gè) CNN 特征向量復(fù)制 k 遍,其中 k = [ T / N ] (我們使用了 k = 3)。這產(chǎn)生一個(gè) CNN 特征數(shù)列 x1、x2、... xT,與聲音特征的數(shù)列長(zhǎng)度相同。在 RNN 的每一步,我們使用目前的圖像特征向量 xt 來(lái)更新隱藏變量 ht 的向量。然后,我們用一個(gè)隱藏變量的仿射變換來(lái)計(jì)算一些聲音特征:
其中 L 是一個(gè)更新隱藏狀態(tài)的函數(shù)。訓(xùn)練中,我們將每一步預(yù)測(cè)和正確預(yù)測(cè)之間的差別最小化:
我們還預(yù)測(cè)子帶包絡(luò)的平方根而非包絡(luò)值本身,從而增加損失函數(shù)的強(qiáng)度。為了讓學(xué)習(xí)更簡(jiǎn)單,我們使用 PCA,在每一步將投射42維的特征向量轉(zhuǎn)換為一個(gè)10維空間,并且預(yù)測(cè)這個(gè)更低維度的向量。當(dāng)我們?cè)u(píng)估神經(jīng)網(wǎng)絡(luò)的時(shí)候,我們將 PCA 轉(zhuǎn)化顛倒,來(lái)獲取良好的特征。我們使用帶有 Caffe 的隨機(jī)梯度下降來(lái)聯(lián)合訓(xùn)練 RNN 和 CNN。我們還是用了 LSTM 的多個(gè)層,層數(shù)由任務(wù)決定。
5.2. 生成波形
我們考慮了兩種從聲音特征中生成波形的方法。第一種是簡(jiǎn)單參數(shù)合成方法,對(duì)一個(gè)白噪音迭代性地加入子帶包絡(luò)(我們只使用了一次迭代)。我們發(fā)現(xiàn),結(jié)果對(duì)于一些材料來(lái)說(shuō)可能不自然,尤其是對(duì)于木頭和金屬等硬質(zhì)材料——也許因?yàn)槲覀冾A(yù)測(cè)的聲音,缺少真實(shí)聲音那種完善的結(jié)構(gòu)和隨機(jī)的變化。
因此,我們還考慮了一種基于例子的合成方法,將預(yù)測(cè)聲音與訓(xùn)練庫(kù)中最接近的樣本對(duì)齊。我們?cè)O(shè)置一個(gè)查詢向量,方法是通過(guò)集合預(yù)測(cè)聲音特征數(shù)列 s1,...,sT(或者是其子數(shù)列),找到訓(xùn)練集中最近的鄰居(以L1距離為測(cè)量),取其相應(yīng)的波形。
6、實(shí)驗(yàn)
我們將聲音預(yù)測(cè)模型應(yīng)用在多個(gè)任務(wù)上,并用人類(lèi)研究和自動(dòng)化度量對(duì)其進(jìn)行評(píng)估。
6.1. 聲音預(yù)測(cè)任務(wù)
為了從聲音預(yù)測(cè)中分離出監(jiān)測(cè)問(wèn)題——也就是說(shuō),判斷一個(gè)會(huì)產(chǎn)生聲音的動(dòng)作是否、以及何時(shí)會(huì)發(fā)生——我們考慮了評(píng)估兩種類(lèi)型的視頻。首先,我們集中在預(yù)測(cè)問(wèn)題,只考慮以振幅峰值為中心的視頻。這些峰值總體上與動(dòng)作對(duì)應(yīng),通過(guò)讓聲音以此為中心,我們可以與沒(méi)有匹配機(jī)制的模型比較,匹配機(jī)制將聲音與動(dòng)作時(shí)間匹配(例如使用 CNN 特征基于最近鄰居搜索的機(jī)制)。要監(jiān)測(cè)這些聲學(xué)峰值,我們?cè)诼曇舴壬鲜褂镁灯揭频囊粋€(gè)變化版本,接著使用非最大抑制。然后,我們圍繞每一個(gè)監(jiān)測(cè)到的峰值取樣,取一個(gè)15幀的數(shù)列(大約0.5秒)。
對(duì)第二項(xiàng)任務(wù),我們稱(chēng)為“監(jiān)測(cè)和預(yù)測(cè)”任務(wù),我們用更長(zhǎng)的數(shù)列來(lái)訓(xùn)練模型(大約2秒長(zhǎng)),一致從0.5秒跨度的訓(xùn)練視頻中取樣。然后我們?cè)谕暾潭鹊囊曨l上評(píng)估我們的模型。因?yàn)橐跃_到子幀的精度監(jiān)測(cè)一個(gè)動(dòng)作的時(shí)間節(jié)點(diǎn)常常很難,我們?cè)试S預(yù)測(cè)特征在與標(biāo)準(zhǔn)比較之前出現(xiàn)一些小變化。我們還在 RNN輸出中引入了一個(gè)延遲,這讓我們的模型可以在計(jì)算聲音特征前,預(yù)見(jiàn)到未來(lái)的幾個(gè)幀。對(duì)于這兩項(xiàng)任務(wù),我們將完整長(zhǎng)度的視頻分割為訓(xùn)練和測(cè)試組(75%訓(xùn)練、25%測(cè)試)。
模型
視頻中,我們將我們的模型與基于圖像的最近鄰居搜索進(jìn)行比較。我們從一個(gè) CNN 中計(jì)算出了fc7特征,CNN 在 ImageNet 上,在每一個(gè)數(shù)列的中心幀做預(yù)先訓(xùn)練,從結(jié)構(gòu)上說(shuō),這個(gè)幀是動(dòng)作產(chǎn)生聲音的幀。為了在這一模型下為新的數(shù)列合成聲音,我們將其中心幀匹配到訓(xùn)練庫(kù)中,取用對(duì)應(yīng)最佳匹配的聲音(同樣也是在中心幀)。我們考慮了變化版本,CNN 特征是用 RGB 圖像、用(三幀的)時(shí)空?qǐng)D像和用兩項(xiàng)特征的集合計(jì)算出來(lái)。
我們還探索了模型的各種變化版本,來(lái)理解不同設(shè)計(jì)決定的影響。我們包括了有或沒(méi)有 ImageNet 預(yù)先訓(xùn)練的模型;有或沒(méi)有時(shí)空?qǐng)D像;以及基于例子和參數(shù)波形生成。最終,我們包括了一個(gè)模型,其中 RNN 連接斷裂(隱藏狀態(tài)設(shè)置為步驟之間為零)。
對(duì)于進(jìn)行基于例子波形生成的 RNN 模型,我們?cè)谟?xùn)練庫(kù)中使用了中心動(dòng)作,作為數(shù)據(jù)庫(kù)例子。我們?cè)谡麄€(gè)數(shù)列使用聲音特征來(lái)進(jìn)行查詢。檢測(cè)-預(yù)測(cè)任務(wù)中的長(zhǎng)視頻中包含多個(gè)動(dòng)作聲音,這就不可能做到了。我們首先在參數(shù)顛倒的波形振幅中檢測(cè)峰值,然后將聲音特征匹配在一個(gè)小的(8幀)窗口,從峰值前一幀開(kāi)始。
6.2. 評(píng)估預(yù)測(cè)聲音
我們希望評(píng)估模型生成的聲音質(zhì)量,并理解模型關(guān)于物理交互和材料都學(xué)到了什么。首先,我們使用自動(dòng)化度量,來(lái)測(cè)量音量等客觀的聲學(xué)特征,并使用心理物理學(xué)實(shí)驗(yàn)來(lái)評(píng)估聲音對(duì)人類(lèi)觀察者來(lái)說(shuō)是否能夠以假亂真。然后,我們?cè)u(píng)估預(yù)測(cè)聲音對(duì)于材料和動(dòng)作分類(lèi)是否有效。
圖5:(a) 我們計(jì)算了實(shí)驗(yàn)被試選擇算法合成的聲音、而非真實(shí)聲音的比例。我們完整的系統(tǒng)是在ImageNet上經(jīng)過(guò)預(yù)先訓(xùn)練,并使用基于例子的合成來(lái)方法來(lái)生成波形,顯著優(yōu)于基于圖片配對(duì)的系統(tǒng)。(b) 在我們的算法看來(lái),聲音聽(tīng)起來(lái)都是什么樣的?我們將一個(gè)用真實(shí)聲音訓(xùn)練的分類(lèi)器應(yīng)用在我們算法產(chǎn)生的聲音上,從而生成一個(gè)混淆矩陣。行對(duì)應(yīng)單個(gè)類(lèi)別的混淆。圖3 (b) 展示了一個(gè)真實(shí)聲音的混淆矩陣。
心理物理學(xué)實(shí)驗(yàn)
要測(cè)試模型產(chǎn)生的聲音是否根據(jù)不同的動(dòng)作和材料恰當(dāng)?shù)剡M(jìn)行了變化,我們使用亞馬遜土耳其機(jī)器人進(jìn)行了一項(xiàng)心理物理學(xué)實(shí)驗(yàn)。我們使用了一個(gè)選擇題,其中有兩個(gè)選項(xiàng),實(shí)驗(yàn)被試需要區(qū)分真實(shí)的和虛假的聲音,必須選擇其中一項(xiàng)。我們給被試展示了兩個(gè)撞擊事件的視頻——一個(gè)播放錄音聲音,一個(gè)播放合成聲音。然后,被試選出真實(shí)的聲音。用來(lái)合成的算法是根據(jù)每一個(gè)視頻隨機(jī)選出,兩個(gè)視頻的順序也是隨機(jī)選出。我們從每個(gè)完整長(zhǎng)度的視頻中隨機(jī)取樣了15個(gè)中心為撞擊的數(shù)列,給每個(gè)被試在每個(gè)視頻中最多展示1個(gè)撞擊。實(shí)驗(yàn)開(kāi)始時(shí),我們透露了5個(gè)練習(xí)數(shù)列的正確答案。
我們將我們的模型與其他幾個(gè)模型進(jìn)行比較(圖表5),測(cè)量被試將算法的結(jié)果誤以為真實(shí)結(jié)果的頻率。我們發(fā)現(xiàn),我們完整的系統(tǒng)——具有RGB和時(shí)空輸入、RNN 連接、ImageNet 預(yù)測(cè)試以及基于例子的波形生成——顯著優(yōu)于最好的圖像匹配方法和簡(jiǎn)單的基準(zhǔn),其中基準(zhǔn)的聲音隨機(jī)從訓(xùn)練庫(kù)(p<0.001,帶有一個(gè)雙面的 t 測(cè)試)。我們從頭開(kāi)始訓(xùn)練的模型也比最好的圖片匹配基準(zhǔn)顯著更好(p = 0.02)。這個(gè)任務(wù)中,我們不認(rèn)為在帶有 RGB 和時(shí)空?qǐng)D像的模型與只有 RGB 的模型之間的區(qū)別足夠顯著(p = 0.08)。
我們發(fā)現(xiàn),RNN 連接破裂的模型經(jīng)常無(wú)法探測(cè)到撞擊的位置,而且模型預(yù)測(cè)的聲音振幅偏低。結(jié)果是,它無(wú)法找到好的匹配,并且在自動(dòng)化度量中表現(xiàn)不佳。使用參數(shù)波形生成的模型(而非基于例子的模型)在不同類(lèi)別中表現(xiàn)有很大差別。當(dāng)模型針對(duì)樹(shù)葉和泥土等材料,在相對(duì)噪音較多的環(huán)境中表現(xiàn)不錯(cuò),而針對(duì)木頭和金屬等硬質(zhì)材料表現(xiàn)不佳(泥土的混淆率為63% ± 6%,而金屬的混淆率為19% ± 5%)。
圖7:心理物理學(xué)實(shí)驗(yàn)的語(yǔ)義分析。我們展示了針對(duì)每一個(gè)材料、動(dòng)作和反應(yīng)類(lèi)別,算法成功糊弄被試的幾率。誤差條形圖是基于每個(gè)類(lèi)別中被試反應(yīng)的數(shù)量。我們的方法顯著優(yōu)于表現(xiàn)最好的圖像匹配方法。
圖7中,我們展現(xiàn)了根據(jù)語(yǔ)義類(lèi)別進(jìn)行分解的結(jié)果。對(duì)于某些類(lèi)別(例如樹(shù)葉和草),被試經(jīng)常被我們的結(jié)果給糊弄住,他們要分辨真實(shí)的與合成的聲音基本靠運(yùn)氣。對(duì)于被試持續(xù)選擇合成聲音的視頻片段,可能是因?yàn)樗鼈儗?duì)于物體類(lèi)別來(lái)說(shuō)更為典型。舉個(gè)例子,打擊落葉的聲音有很多變化,可能在視頻中沒(méi)有完全展示出來(lái):我們可能聽(tīng)到的是葉子本身與葉子底下某些東西的結(jié)合聲音。很多時(shí)候,葉子的聲音對(duì)于被試來(lái)說(shuō)聽(tīng)起來(lái)反而不自然。與之相比,我們發(fā)現(xiàn)被試很擅長(zhǎng)判斷真實(shí)與合成的靠墊聲音,也許因?yàn)槿藗儗?duì)靠墊應(yīng)該是什么聲音會(huì)更加敏感。
聲學(xué)度量
我們測(cè)量了若干個(gè)聲音的量化特性。首先,我們?cè)u(píng)估了聲音的音量,我們認(rèn)為這是聲音全過(guò)程中最大的能量,我們將能量測(cè)量為每一步(壓縮的)子帶包絡(luò)的 L2。第二步,我們比較聲音的頻譜質(zhì)心,測(cè)量方式為取動(dòng)作中心的單個(gè)幀(大約0.03秒)頻率子帶的中心。我們發(fā)現(xiàn),在兩個(gè)度量中,從均方誤差和相關(guān)系數(shù)的角度來(lái)說(shuō),網(wǎng)絡(luò)比圖片匹配方法都明顯更為精確(圖5(a))。
圖6:(a) 我們運(yùn)行了完整系統(tǒng)的各個(gè)版本,以及使用RGB和時(shí)空?qǐng)D像的圖片匹配方法。對(duì)于每一個(gè)模型,我們包括了一個(gè)先知模型,從有相同真實(shí)標(biāo)簽的視頻中獲得聲音樣本。(b) 動(dòng)作探測(cè)的查準(zhǔn)-召回曲線,在重新生成預(yù)測(cè)波形后探測(cè)打擊而獲得。使用時(shí)空?qǐng)D像的方法優(yōu)于只使用 RGB 的方法。
先知結(jié)果
材料類(lèi)別信息有多有用?我們進(jìn)行了第二項(xiàng)研究,我們探索了如果我們控制材料識(shí)別的精度,表現(xiàn)會(huì)有什么變化。使用帶有材料注釋的數(shù)據(jù)子集,我們創(chuàng)建了一個(gè)模型,從同樣的真實(shí)類(lèi)別中選擇隨機(jī)聲音作為輸入。我們還創(chuàng)建了一系列先知模型,使用這項(xiàng)材料標(biāo)記(圖6(a))。針對(duì)表現(xiàn)最好的圖像匹配模型(RGB+時(shí)空),我們限制匹配范圍為具有與輸入同樣標(biāo)示(對(duì)于基于例子合成的方法也是同樣)。我們發(fā)現(xiàn),雖然知道材料對(duì)于每一種方法來(lái)說(shuō)都有幫助,但是這還不足夠,因?yàn)橄戎P蜎](méi)有超越我們的模型。尤其是我們模型的先知版本明顯優(yōu)于隨機(jī)取樣的先知(p < 10-4)。
圖8:自動(dòng)聲音預(yù)測(cè)結(jié)果。我們選擇了一些具有代表性的視頻數(shù)列的耳蝸圖,左側(cè)每個(gè)數(shù)列都有一個(gè)樣本幀。每個(gè)耳蝸圖中,x 軸上的黑色三角形標(biāo)記除了幀的位置。值得注意的是,算法合成的耳蝸圖與真實(shí)耳蝸圖的整體結(jié)構(gòu)相匹配。耳蝸圖里的黑線標(biāo)記打擊動(dòng)作,算法經(jīng)常能探測(cè)到。算法抓取聲音的時(shí)間和光譜結(jié)構(gòu)。另外,算法傾向于預(yù)測(cè)打擊軟靠墊等更低的音調(diào),以及擊鼓棒敲打木頭扶手的更高敲擊音。一個(gè)普遍的錯(cuò)誤模式是,算法會(huì)忽略打擊(欄桿的例子),或者錯(cuò)誤“幻聽(tīng)”(靠墊的例子)。這在擊鼓棒敲打不規(guī)律的時(shí)候經(jīng)常發(fā)生。
動(dòng)作監(jiān)測(cè)
我們還使用了我們的方法,來(lái)為(沒(méi)有調(diào)整中心的)長(zhǎng)視頻生成聲音,這樣我們可以評(píng)估它們監(jiān)測(cè)動(dòng)作事件的能力。為此我們使用了參數(shù)方法(5.2部分),從聲音預(yù)測(cè)中生成了一個(gè)波形,并使用 6.1. 部分中的方法來(lái)監(jiān)測(cè)振幅峰值。然后,我們將這些振幅峰值的時(shí)間點(diǎn)與真實(shí)的時(shí)間點(diǎn)進(jìn)行比較,如果預(yù)測(cè)的峰值出現(xiàn)在 0.1 秒以內(nèi)我們就認(rèn)為成功監(jiān)測(cè)到了動(dòng)作。我們計(jì)算了一個(gè)查準(zhǔn)-召回曲線,使用振幅作為代理,用不同的值重新設(shè)置波形并運(yùn)行峰值監(jiān)測(cè)程序。在圖6(b),我們將我們的模型與只使用RGB圖像的模型比較,發(fā)現(xiàn)時(shí)空?qǐng)D像顯著改善了結(jié)果。我們?cè)趫D8中提供了定性例子。
6.3. 通過(guò)預(yù)測(cè)聲音了解材料和動(dòng)作
通過(guò)學(xué)習(xí)預(yù)測(cè)聲音,神經(jīng)網(wǎng)絡(luò)有沒(méi)有同時(shí)學(xué)到一些關(guān)于材料和動(dòng)作的信息呢?為了解答這個(gè)問(wèn)題,我們測(cè)試了網(wǎng)絡(luò)的輸出聲音是否能體現(xiàn)材料和動(dòng)作的類(lèi)別。我們將基于真實(shí)聲音特征來(lái)訓(xùn)練預(yù)測(cè)材料和動(dòng)作類(lèi)型的同一個(gè)SVM,用在我們網(wǎng)絡(luò)預(yù)測(cè)的聲音上。在這個(gè)評(píng)估機(jī)制下,神經(jīng)網(wǎng)絡(luò)的聲音僅僅可以區(qū)分是不夠的:為了能讓從未見(jiàn)過(guò)預(yù)測(cè)聲音的SVM正確分類(lèi),它們必須足夠接近真實(shí)的聲音。要避免預(yù)先訓(xùn)練的影響,我們使用了從頭開(kāi)始訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。我們需要指出,這種評(píng)估方法和最近的無(wú)監(jiān)督學(xué)習(xí)技術(shù)不同,后者利用網(wǎng)絡(luò)內(nèi)部表征來(lái)重新訓(xùn)練分類(lèi)器,而非利用輸出的標(biāo)準(zhǔn)版本。
我們?cè)诓牧项?lèi)別和動(dòng)作類(lèi)別上都使用了SVM。生成的材料類(lèi)別混淆矩陣在圖5(b)中,平衡精度為 18.2%(有了預(yù)先訓(xùn)練后,這項(xiàng)結(jié)果提升到 23.4%)。這項(xiàng)精度表明,我們的模型學(xué)會(huì)了一個(gè)輸出表征,具有關(guān)于材料的信息,雖然模型訓(xùn)練的目的是預(yù)測(cè)聲音。在從聲音預(yù)測(cè)動(dòng)作的任務(wù)中(同樣也是使用用真實(shí)聲音訓(xùn)練的SVM分類(lèi)器),我們能夠以 67.9% 的平均類(lèi)別精度區(qū)分擊打和劃擦(在將每一個(gè)類(lèi)別重新取樣為各2000個(gè)例子后)。同一個(gè)分類(lèi)器在真實(shí)聲音中具有 84.1% 的精度。
材料類(lèi)別的混淆經(jīng)常出現(xiàn)在同一個(gè)上級(jí)類(lèi)別中。舉個(gè)例子,軟的材料,例如布料,經(jīng)常被混淆為靠墊等其他軟質(zhì)材料,對(duì)于硬質(zhì)材料也是同樣,例如瓷磚經(jīng)常被誤以為是混凝土。從量上說(shuō),分類(lèi)器能以 69.0% 的精度區(qū)分軟硬質(zhì)材料。我們定義軟質(zhì)材料為 { 樹(shù)葉,草,橡膠,布靠墊,塑料袋 } ,而硬質(zhì)材料為 { 碎石,石頭,瓷磚,混凝土,木頭,陶瓷,塑料,干墻,玻璃,金屬 }。
我們還提供了一個(gè)混淆矩陣,直接從基于視覺(jué)特征的材料類(lèi)別預(yù)測(cè)中獲得。這種視覺(jué)分類(lèi)器犯的錯(cuò)誤經(jīng)常與聲音分類(lèi)器的錯(cuò)誤不同(圖3)。舉個(gè)例子,視覺(jué)分類(lèi)器能夠區(qū)分具有非常不同視覺(jué)外表的類(lèi)別,例如紙板和靠墊——但是由于兩者都是低音調(diào)聲音,有時(shí)候聲音分類(lèi)器就會(huì)犯錯(cuò)。另一方面,室外環(huán)境的材料更容易混淆,例如巖石和樹(shù)葉——這兩種材料聽(tīng)起來(lái)非常不同,但是經(jīng)常在畫(huà)面中同時(shí)出現(xiàn)。當(dāng)我們用分類(lèi)聲音預(yù)測(cè)來(lái)分析我們的模型時(shí),產(chǎn)生的混淆矩陣包含兩種錯(cuò)誤類(lèi)型:當(dāng)模型錯(cuò)誤識(shí)別被打擊的物體,這是視覺(jué)分析錯(cuò)誤;當(dāng)模型生成的聲音不夠接近真實(shí)聲音,這是聲音合成錯(cuò)誤。
7、討論
這項(xiàng)研究中,我們提出合成視覺(jué)指明的聲音——這個(gè)問(wèn)題要求算法學(xué)習(xí)材料特性和物理交互。我們引入了一個(gè)研究這項(xiàng)任務(wù)的數(shù)據(jù)庫(kù),含有一個(gè)人用擊鼓棒探測(cè)環(huán)境的視頻,以及一個(gè)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的算法。我們用心理物理學(xué)實(shí)驗(yàn)和自動(dòng)化度量來(lái)評(píng)估我們方法的質(zhì)量,顯示了我們算法的表現(xiàn)顯著優(yōu)于基準(zhǔn)。
我們認(rèn)為這項(xiàng)研究為未來(lái)研究打開(kāi)了兩個(gè)可能的方向。第一個(gè)方向是從視頻中生成現(xiàn)實(shí)的聲音,將制造聲音作為目的本身。第二個(gè)方向是使用聲音和材料交互,作為實(shí)現(xiàn)物理環(huán)境理解的一個(gè)階梯。我們將會(huì)發(fā)布“打擊聲音大全”數(shù)據(jù)庫(kù)以及我們算法的代碼。
via RoboHub
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。