0
本文作者: 夏睿 | 2017-03-25 15:55 |
我們在感知外部世界的過程中,聲音(audio)起到了極大的作用。在這里,我們把聲音分解為兩類,一類是語音(speech),另一類是環(huán)境音(sound)。人們會本能地對環(huán)境音做出反應(yīng),比如會被突如其來的騷動所驚嚇,或被情景喜劇中的背景笑聲所感染。
影音網(wǎng)站界的翹楚——YouTube 也深知音頻的重要性。自2009年起,他們就開始讓視頻自動生成字幕。如今,這一功能又有了升級版——雷鋒網(wǎng)了解到,谷歌于昨日(3月23日)宣布,將為YouTube視頻中的自動字幕增加音效信息,使人們擁有更豐富的視聽體驗。
據(jù)雷鋒網(wǎng)了解,這也是YouTube第一個用機(jī)器學(xué)習(xí)為視頻自動添加音效字幕的技術(shù),由Accessibility、Sound Understanding和YouTube團(tuán)隊共同完成。
為了探測環(huán)境音,研究人員使用深度神經(jīng)網(wǎng)絡(luò)(DNN)模型來解決下面三個問題:
檢測出用戶想要的聲音;
對該聲音進(jìn)行時間定位;
音頻中可能也有識別出其他并行或獨立的語音,將上述兩步的聲音結(jié)果整合其中。
研究人員在開發(fā)DNN模型時,遇到的第一個挑戰(zhàn)是難以獲得大量有標(biāo)記的環(huán)境音信息。而他們的解決方法是,轉(zhuǎn)向使用弱標(biāo)記數(shù)據(jù)來生成足夠多的數(shù)據(jù)集。不過,問題又來了:
一個視頻中有那么多種環(huán)境音,要選擇哪種呢?
研究人員最后選擇檢測的三種環(huán)境音是“鼓掌”、“音樂”和“笑聲”,因為在人們添加的字幕中,這三種被添加的次數(shù)最多,并且傳達(dá)的語義信息也比較明確。
除了選定環(huán)境音,研究人員也做了許多檢測環(huán)境音的工作,包括開發(fā)基礎(chǔ)與分析框架,探測聲音事件,以及將其整合進(jìn)自動字幕中,這些工作可使以后在音頻中整合其它類型的聲音(比如“鈴聲”、 “犬叫聲”)變得更加容易。
將視頻傳到Y(jié)ouTube上后,DNN會自動查看音頻,并預(yù)測其是否包含人們感興趣的聲音事件(sound event)。由于多個音頻可以同時出現(xiàn),所以模型需要在每個時間段內(nèi)對每個音頻進(jìn)行預(yù)測,直到預(yù)測完所有音頻(如下圖所示)。最后會得到一個密集流,即表示詞表中的聲音以100幀/s的頻率出現(xiàn)。
同時,研究人員還使用了含有ON和OFF的改進(jìn)維特比算法(Viterbi algorithm),讓密集流預(yù)測變得更平滑。每個音效的預(yù)測斷對應(yīng)ON。
但是,這樣的分類系統(tǒng)可能會導(dǎo)致模型無法區(qū)分同一時段內(nèi)發(fā)生的不同事件。這就需要模型在信息誤報(false positives )和信息丟失這兩點中尋找平衡。具體做法是:
根據(jù) ON 上的時間做進(jìn)一步限制,從而將系統(tǒng)性能推至精確度召回曲線上的一個預(yù)期點。
研究人員還與用戶體驗研究團(tuán)隊展開合作,分析了在不同條件下,用戶體驗有何差異。條件設(shè)定如:
分開顯示語音字幕和音效字幕;
兼有語音字幕和音效字幕時,讓它們交叉呈現(xiàn);
僅在句子結(jié)束或語音出現(xiàn)停頓時,顯示音效字幕;
消音看視頻,評價對字幕的感受如何。
除此之外,研究人員還重點關(guān)注了聲音監(jiān)測系統(tǒng)的錯誤反饋。事實證明,音效信息錯誤會并不會使用戶體驗降低,原因可能是以下兩點:
能聽到聲音的用戶,忽略了字幕中的錯誤;
聽不到聲音的用戶,也能從錯誤的字幕信息中得知有聲音事件發(fā)生,因而沒有遺漏關(guān)鍵的語音信息。
研究人員最后表示,系統(tǒng)偶爾犯下小打小鬧的錯誤影響不大,只要提供的信息大部分正確,還是會贏得用戶的好評。
更多谷歌最新研究請繼續(xù)關(guān)注雷鋒網(wǎng)報道。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。