丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給夏睿
發(fā)送

0

谷歌新進(jìn)展:用DNN模型為YouTube視頻添加環(huán)境音效字幕

本文作者: 夏睿 2017-03-25 15:55
導(dǎo)語:該技術(shù)由Accessibility、Sound Understanding和YouTube三個團(tuán)隊共同完成。

谷歌新進(jìn)展:用DNN模型為YouTube視頻添加環(huán)境音效字幕

我們在感知外部世界的過程中,聲音(audio)起到了極大的作用。在這里,我們把聲音分解為兩類,一類是語音(speech),另一類是環(huán)境音(sound)。人們會本能地對環(huán)境音做出反應(yīng),比如會被突如其來的騷動所驚嚇,或被情景喜劇中的背景笑聲所感染。

影音網(wǎng)站界的翹楚——YouTube 也深知音頻的重要性。自2009年起,他們就開始讓視頻自動生成字幕。如今,這一功能又有了升級版——雷鋒網(wǎng)了解到,谷歌于昨日(3月23日)宣布,將為YouTube視頻中的自動字幕增加音效信息,使人們擁有更豐富的視聽體驗。

據(jù)雷鋒網(wǎng)了解,這也是YouTube第一個用機(jī)器學(xué)習(xí)為視頻自動添加音效字幕的技術(shù),由Accessibility、Sound Understanding和YouTube團(tuán)隊共同完成。

用于探測環(huán)境音的DNN模型

為了探測環(huán)境音,研究人員使用深度神經(jīng)網(wǎng)絡(luò)(DNN)模型來解決下面三個問題:

  1.  檢測出用戶想要的聲音;

  2. 對該聲音進(jìn)行時間定位;

  3. 音頻中可能也有識別出其他并行或獨立的語音,將上述兩步的聲音結(jié)果整合其中。

研究人員在開發(fā)DNN模型時,遇到的第一個挑戰(zhàn)是難以獲得大量有標(biāo)記的環(huán)境音信息。而他們的解決方法是,轉(zhuǎn)向使用弱標(biāo)記數(shù)據(jù)來生成足夠多的數(shù)據(jù)集。不過,問題又來了:

  • 一個視頻中有那么多種環(huán)境音,要選擇哪種呢?

研究人員最后選擇檢測的三種環(huán)境音是“鼓掌”、“音樂”和“笑聲”,因為在人們添加的字幕中,這三種被添加的次數(shù)最多,并且傳達(dá)的語義信息也比較明確。

除了選定環(huán)境音,研究人員也做了許多檢測環(huán)境音的工作,包括開發(fā)基礎(chǔ)與分析框架,探測聲音事件,以及將其整合進(jìn)自動字幕中,這些工作可使以后在音頻中整合其它類型的聲音(比如“鈴聲”、 “犬叫聲”)變得更加容易。

字幕密度檢測

將視頻傳到Y(jié)ouTube上后,DNN會自動查看音頻,并預(yù)測其是否包含人們感興趣的聲音事件(sound event)。由于多個音頻可以同時出現(xiàn),所以模型需要在每個時間段內(nèi)對每個音頻進(jìn)行預(yù)測,直到預(yù)測完所有音頻(如下圖所示)。最后會得到一個密集流,即表示詞表中的聲音以100幀/s的頻率出現(xiàn)。

谷歌新進(jìn)展:用DNN模型為YouTube視頻添加環(huán)境音效字幕

同時,研究人員還使用了含有ON和OFF的改進(jìn)維特比算法(Viterbi algorithm),讓密集流預(yù)測變得更平滑。每個音效的預(yù)測斷對應(yīng)ON。

但是,這樣的分類系統(tǒng)可能會導(dǎo)致模型無法區(qū)分同一時段內(nèi)發(fā)生的不同事件。這就需要模型在信息誤報(false positives )和信息丟失這兩點中尋找平衡。具體做法是:

根據(jù) ON 上的時間做進(jìn)一步限制,從而將系統(tǒng)性能推至精確度召回曲線上的一個預(yù)期點。

用戶體驗反饋

研究人員還與用戶體驗研究團(tuán)隊展開合作,分析了在不同條件下,用戶體驗有何差異。條件設(shè)定如:

  • 分開顯示語音字幕和音效字幕;

  • 兼有語音字幕和音效字幕時,讓它們交叉呈現(xiàn);

  • 僅在句子結(jié)束或語音出現(xiàn)停頓時,顯示音效字幕;

  • 消音看視頻,評價對字幕的感受如何。

除此之外,研究人員還重點關(guān)注了聲音監(jiān)測系統(tǒng)的錯誤反饋。事實證明,音效信息錯誤會并不會使用戶體驗降低,原因可能是以下兩點:

  1. 能聽到聲音的用戶,忽略了字幕中的錯誤;

  2. 聽不到聲音的用戶,也能從錯誤的字幕信息中得知有聲音事件發(fā)生,因而沒有遺漏關(guān)鍵的語音信息。

研究人員最后表示,系統(tǒng)偶爾犯下小打小鬧的錯誤影響不大,只要提供的信息大部分正確,還是會贏得用戶的好評。

更多谷歌最新研究請繼續(xù)關(guān)注雷鋒網(wǎng)報道。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

谷歌新進(jìn)展:用DNN模型為YouTube視頻添加環(huán)境音效字幕

分享:
相關(guān)文章

編輯

求索于科技人文間, 流連在 AI 浪潮下; 我在這兒, 斟酒,燃香,等你故事
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說