0
本文作者: 夏睿 | 2017-03-25 15:55 |
我們?cè)诟兄獠渴澜绲倪^(guò)程中,聲音(audio)起到了極大的作用。在這里,我們把聲音分解為兩類,一類是語(yǔ)音(speech),另一類是環(huán)境音(sound)。人們會(huì)本能地對(duì)環(huán)境音做出反應(yīng),比如會(huì)被突如其來(lái)的騷動(dòng)所驚嚇,或被情景喜劇中的背景笑聲所感染。
影音網(wǎng)站界的翹楚——YouTube 也深知音頻的重要性。自2009年起,他們就開始讓視頻自動(dòng)生成字幕。如今,這一功能又有了升級(jí)版——雷鋒網(wǎng)了解到,谷歌于昨日(3月23日)宣布,將為YouTube視頻中的自動(dòng)字幕增加音效信息,使人們擁有更豐富的視聽體驗(yàn)。
據(jù)雷鋒網(wǎng)了解,這也是YouTube第一個(gè)用機(jī)器學(xué)習(xí)為視頻自動(dòng)添加音效字幕的技術(shù),由Accessibility、Sound Understanding和YouTube團(tuán)隊(duì)共同完成。
為了探測(cè)環(huán)境音,研究人員使用深度神經(jīng)網(wǎng)絡(luò)(DNN)模型來(lái)解決下面三個(gè)問(wèn)題:
檢測(cè)出用戶想要的聲音;
對(duì)該聲音進(jìn)行時(shí)間定位;
音頻中可能也有識(shí)別出其他并行或獨(dú)立的語(yǔ)音,將上述兩步的聲音結(jié)果整合其中。
研究人員在開發(fā)DNN模型時(shí),遇到的第一個(gè)挑戰(zhàn)是難以獲得大量有標(biāo)記的環(huán)境音信息。而他們的解決方法是,轉(zhuǎn)向使用弱標(biāo)記數(shù)據(jù)來(lái)生成足夠多的數(shù)據(jù)集。不過(guò),問(wèn)題又來(lái)了:
一個(gè)視頻中有那么多種環(huán)境音,要選擇哪種呢?
研究人員最后選擇檢測(cè)的三種環(huán)境音是“鼓掌”、“音樂”和“笑聲”,因?yàn)樵谌藗兲砑拥淖帜恢?,這三種被添加的次數(shù)最多,并且傳達(dá)的語(yǔ)義信息也比較明確。
除了選定環(huán)境音,研究人員也做了許多檢測(cè)環(huán)境音的工作,包括開發(fā)基礎(chǔ)與分析框架,探測(cè)聲音事件,以及將其整合進(jìn)自動(dòng)字幕中,這些工作可使以后在音頻中整合其它類型的聲音(比如“鈴聲”、 “犬叫聲”)變得更加容易。
將視頻傳到Y(jié)ouTube上后,DNN會(huì)自動(dòng)查看音頻,并預(yù)測(cè)其是否包含人們感興趣的聲音事件(sound event)。由于多個(gè)音頻可以同時(shí)出現(xiàn),所以模型需要在每個(gè)時(shí)間段內(nèi)對(duì)每個(gè)音頻進(jìn)行預(yù)測(cè),直到預(yù)測(cè)完所有音頻(如下圖所示)。最后會(huì)得到一個(gè)密集流,即表示詞表中的聲音以100幀/s的頻率出現(xiàn)。
同時(shí),研究人員還使用了含有ON和OFF的改進(jìn)維特比算法(Viterbi algorithm),讓密集流預(yù)測(cè)變得更平滑。每個(gè)音效的預(yù)測(cè)斷對(duì)應(yīng)ON。
但是,這樣的分類系統(tǒng)可能會(huì)導(dǎo)致模型無(wú)法區(qū)分同一時(shí)段內(nèi)發(fā)生的不同事件。這就需要模型在信息誤報(bào)(false positives )和信息丟失這兩點(diǎn)中尋找平衡。具體做法是:
根據(jù) ON 上的時(shí)間做進(jìn)一步限制,從而將系統(tǒng)性能推至精確度召回曲線上的一個(gè)預(yù)期點(diǎn)。
研究人員還與用戶體驗(yàn)研究團(tuán)隊(duì)展開合作,分析了在不同條件下,用戶體驗(yàn)有何差異。條件設(shè)定如:
分開顯示語(yǔ)音字幕和音效字幕;
兼有語(yǔ)音字幕和音效字幕時(shí),讓它們交叉呈現(xiàn);
僅在句子結(jié)束或語(yǔ)音出現(xiàn)停頓時(shí),顯示音效字幕;
消音看視頻,評(píng)價(jià)對(duì)字幕的感受如何。
除此之外,研究人員還重點(diǎn)關(guān)注了聲音監(jiān)測(cè)系統(tǒng)的錯(cuò)誤反饋。事實(shí)證明,音效信息錯(cuò)誤會(huì)并不會(huì)使用戶體驗(yàn)降低,原因可能是以下兩點(diǎn):
能聽到聲音的用戶,忽略了字幕中的錯(cuò)誤;
聽不到聲音的用戶,也能從錯(cuò)誤的字幕信息中得知有聲音事件發(fā)生,因而沒有遺漏關(guān)鍵的語(yǔ)音信息。
研究人員最后表示,系統(tǒng)偶爾犯下小打小鬧的錯(cuò)誤影響不大,只要提供的信息大部分正確,還是會(huì)贏得用戶的好評(píng)。
更多谷歌最新研究請(qǐng)繼續(xù)關(guān)注雷鋒網(wǎng)報(bào)道。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。