谷歌新進(jìn)展：用DNN模型為YouTube視頻添加環(huán)境音效字幕

本文作者：夏睿

2017-03-25 15:55

導(dǎo)語(yǔ)：該技術(shù)由Accessibility、Sound Understanding和YouTube三個(gè)團(tuán)隊(duì)共同完成。

我們?cè)诟兄獠渴澜绲倪^(guò)程中，聲音（audio）起到了極大的作用。在這里，我們把聲音分解為兩類，一類是語(yǔ)音（speech），另一類是環(huán)境音（sound）。人們會(huì)本能地對(duì)環(huán)境音做出反應(yīng)，比如會(huì)被突如其來(lái)的騷動(dòng)所驚嚇，或被情景喜劇中的背景笑聲所感染。

影音網(wǎng)站界的翹楚——YouTube 也深知音頻的重要性。自2009年起，他們就開始讓視頻自動(dòng)生成字幕。如今，這一功能又有了升級(jí)版——雷鋒網(wǎng)了解到，谷歌于昨日（3月23日）宣布，將為YouTube視頻中的自動(dòng)字幕增加音效信息，使人們擁有更豐富的視聽體驗(yàn)。

據(jù)雷鋒網(wǎng)了解，這也是YouTube第一個(gè)用機(jī)器學(xué)習(xí)為視頻自動(dòng)添加音效字幕的技術(shù)，由Accessibility、Sound Understanding和YouTube團(tuán)隊(duì)共同完成。

用于探測(cè)環(huán)境音的DNN模型

為了探測(cè)環(huán)境音，研究人員使用深度神經(jīng)網(wǎng)絡(luò)（DNN）模型來(lái)解決下面三個(gè)問(wèn)題：

檢測(cè)出用戶想要的聲音；
對(duì)該聲音進(jìn)行時(shí)間定位；
音頻中可能也有識(shí)別出其他并行或獨(dú)立的語(yǔ)音，將上述兩步的聲音結(jié)果整合其中。

研究人員在開發(fā)DNN模型時(shí)，遇到的第一個(gè)挑戰(zhàn)是難以獲得大量有標(biāo)記的環(huán)境音信息。而他們的解決方法是，轉(zhuǎn)向使用弱標(biāo)記數(shù)據(jù)來(lái)生成足夠多的數(shù)據(jù)集。不過(guò)，問(wèn)題又來(lái)了：

一個(gè)視頻中有那么多種環(huán)境音，要選擇哪種呢？

研究人員最后選擇檢測(cè)的三種環(huán)境音是“鼓掌”、“音樂”和“笑聲”，因?yàn)樵谌藗兲砑拥淖帜恢?，這三種被添加的次數(shù)最多，并且傳達(dá)的語(yǔ)義信息也比較明確。

除了選定環(huán)境音，研究人員也做了許多檢測(cè)環(huán)境音的工作，包括開發(fā)基礎(chǔ)與分析框架，探測(cè)聲音事件，以及將其整合進(jìn)自動(dòng)字幕中，這些工作可使以后在音頻中整合其它類型的聲音（比如“鈴聲”、 “犬叫聲”）變得更加容易。

字幕密度檢測(cè)

將視頻傳到Y(jié)ouTube上后，DNN會(huì)自動(dòng)查看音頻，并預(yù)測(cè)其是否包含人們感興趣的聲音事件（sound event）。由于多個(gè)音頻可以同時(shí)出現(xiàn)，所以模型需要在每個(gè)時(shí)間段內(nèi)對(duì)每個(gè)音頻進(jìn)行預(yù)測(cè)，直到預(yù)測(cè)完所有音頻（如下圖所示）。最后會(huì)得到一個(gè)密集流，即表示詞表中的聲音以100幀/s的頻率出現(xiàn)。

谷歌新進(jìn)展：用DNN模型為YouTube視頻添加環(huán)境音效字幕

同時(shí)，研究人員還使用了含有ON和OFF的改進(jìn)維特比算法（Viterbi algorithm），讓密集流預(yù)測(cè)變得更平滑。每個(gè)音效的預(yù)測(cè)斷對(duì)應(yīng)ON。

但是，這樣的分類系統(tǒng)可能會(huì)導(dǎo)致模型無(wú)法區(qū)分同一時(shí)段內(nèi)發(fā)生的不同事件。這就需要模型在信息誤報(bào)（false positives ）和信息丟失這兩點(diǎn)中尋找平衡。具體做法是：

根據(jù) ON 上的時(shí)間做進(jìn)一步限制，從而將系統(tǒng)性能推至精確度召回曲線上的一個(gè)預(yù)期點(diǎn)。

用戶體驗(yàn)反饋

研究人員還與用戶體驗(yàn)研究團(tuán)隊(duì)展開合作，分析了在不同條件下，用戶體驗(yàn)有何差異。條件設(shè)定如：

分開顯示語(yǔ)音字幕和音效字幕；
兼有語(yǔ)音字幕和音效字幕時(shí)，讓它們交叉呈現(xiàn)；
僅在句子結(jié)束或語(yǔ)音出現(xiàn)停頓時(shí)，顯示音效字幕；
消音看視頻，評(píng)價(jià)對(duì)字幕的感受如何。

除此之外，研究人員還重點(diǎn)關(guān)注了聲音監(jiān)測(cè)系統(tǒng)的錯(cuò)誤反饋。事實(shí)證明，音效信息錯(cuò)誤會(huì)并不會(huì)使用戶體驗(yàn)降低，原因可能是以下兩點(diǎn)：

能聽到聲音的用戶，忽略了字幕中的錯(cuò)誤；
聽不到聲音的用戶，也能從錯(cuò)誤的字幕信息中得知有聲音事件發(fā)生，因而沒有遺漏關(guān)鍵的語(yǔ)音信息。

研究人員最后表示，系統(tǒng)偶爾犯下小打小鬧的錯(cuò)誤影響不大，只要提供的信息大部分正確，還是會(huì)贏得用戶的好評(píng)。

更多谷歌最新研究請(qǐng)繼續(xù)關(guān)注雷鋒網(wǎng)報(bào)道。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

夏睿

編輯

求索于科技人文間，流連在 AI 浪潮下；我在這兒，斟酒，燃香，等你故事

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章