丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給夏睿
發(fā)送

0

谷歌新進(jìn)展:用DNN模型為YouTube視頻添加環(huán)境音效字幕

本文作者: 夏睿 2017-03-25 15:55
導(dǎo)語(yǔ):該技術(shù)由Accessibility、Sound Understanding和YouTube三個(gè)團(tuán)隊(duì)共同完成。

谷歌新進(jìn)展:用DNN模型為YouTube視頻添加環(huán)境音效字幕

我們?cè)诟兄獠渴澜绲倪^(guò)程中,聲音(audio)起到了極大的作用。在這里,我們把聲音分解為兩類,一類是語(yǔ)音(speech),另一類是環(huán)境音(sound)。人們會(huì)本能地對(duì)環(huán)境音做出反應(yīng),比如會(huì)被突如其來(lái)的騷動(dòng)所驚嚇,或被情景喜劇中的背景笑聲所感染。

影音網(wǎng)站界的翹楚——YouTube 也深知音頻的重要性。自2009年起,他們就開始讓視頻自動(dòng)生成字幕。如今,這一功能又有了升級(jí)版——雷鋒網(wǎng)了解到,谷歌于昨日(3月23日)宣布,將為YouTube視頻中的自動(dòng)字幕增加音效信息,使人們擁有更豐富的視聽體驗(yàn)。

據(jù)雷鋒網(wǎng)了解,這也是YouTube第一個(gè)用機(jī)器學(xué)習(xí)為視頻自動(dòng)添加音效字幕的技術(shù),由Accessibility、Sound Understanding和YouTube團(tuán)隊(duì)共同完成。

用于探測(cè)環(huán)境音的DNN模型

為了探測(cè)環(huán)境音,研究人員使用深度神經(jīng)網(wǎng)絡(luò)(DNN)模型來(lái)解決下面三個(gè)問(wèn)題:

  1.  檢測(cè)出用戶想要的聲音;

  2. 對(duì)該聲音進(jìn)行時(shí)間定位;

  3. 音頻中可能也有識(shí)別出其他并行或獨(dú)立的語(yǔ)音,將上述兩步的聲音結(jié)果整合其中。

研究人員在開發(fā)DNN模型時(shí),遇到的第一個(gè)挑戰(zhàn)是難以獲得大量有標(biāo)記的環(huán)境音信息。而他們的解決方法是,轉(zhuǎn)向使用弱標(biāo)記數(shù)據(jù)來(lái)生成足夠多的數(shù)據(jù)集。不過(guò),問(wèn)題又來(lái)了:

  • 一個(gè)視頻中有那么多種環(huán)境音,要選擇哪種呢?

研究人員最后選擇檢測(cè)的三種環(huán)境音是“鼓掌”、“音樂”和“笑聲”,因?yàn)樵谌藗兲砑拥淖帜恢?,這三種被添加的次數(shù)最多,并且傳達(dá)的語(yǔ)義信息也比較明確。

除了選定環(huán)境音,研究人員也做了許多檢測(cè)環(huán)境音的工作,包括開發(fā)基礎(chǔ)與分析框架,探測(cè)聲音事件,以及將其整合進(jìn)自動(dòng)字幕中,這些工作可使以后在音頻中整合其它類型的聲音(比如“鈴聲”、 “犬叫聲”)變得更加容易。

字幕密度檢測(cè)

將視頻傳到Y(jié)ouTube上后,DNN會(huì)自動(dòng)查看音頻,并預(yù)測(cè)其是否包含人們感興趣的聲音事件(sound event)。由于多個(gè)音頻可以同時(shí)出現(xiàn),所以模型需要在每個(gè)時(shí)間段內(nèi)對(duì)每個(gè)音頻進(jìn)行預(yù)測(cè),直到預(yù)測(cè)完所有音頻(如下圖所示)。最后會(huì)得到一個(gè)密集流,即表示詞表中的聲音以100幀/s的頻率出現(xiàn)。

谷歌新進(jìn)展:用DNN模型為YouTube視頻添加環(huán)境音效字幕

同時(shí),研究人員還使用了含有ON和OFF的改進(jìn)維特比算法(Viterbi algorithm),讓密集流預(yù)測(cè)變得更平滑。每個(gè)音效的預(yù)測(cè)斷對(duì)應(yīng)ON。

但是,這樣的分類系統(tǒng)可能會(huì)導(dǎo)致模型無(wú)法區(qū)分同一時(shí)段內(nèi)發(fā)生的不同事件。這就需要模型在信息誤報(bào)(false positives )和信息丟失這兩點(diǎn)中尋找平衡。具體做法是:

根據(jù) ON 上的時(shí)間做進(jìn)一步限制,從而將系統(tǒng)性能推至精確度召回曲線上的一個(gè)預(yù)期點(diǎn)。

用戶體驗(yàn)反饋

研究人員還與用戶體驗(yàn)研究團(tuán)隊(duì)展開合作,分析了在不同條件下,用戶體驗(yàn)有何差異。條件設(shè)定如:

  • 分開顯示語(yǔ)音字幕和音效字幕;

  • 兼有語(yǔ)音字幕和音效字幕時(shí),讓它們交叉呈現(xiàn);

  • 僅在句子結(jié)束或語(yǔ)音出現(xiàn)停頓時(shí),顯示音效字幕;

  • 消音看視頻,評(píng)價(jià)對(duì)字幕的感受如何。

除此之外,研究人員還重點(diǎn)關(guān)注了聲音監(jiān)測(cè)系統(tǒng)的錯(cuò)誤反饋。事實(shí)證明,音效信息錯(cuò)誤會(huì)并不會(huì)使用戶體驗(yàn)降低,原因可能是以下兩點(diǎn):

  1. 能聽到聲音的用戶,忽略了字幕中的錯(cuò)誤;

  2. 聽不到聲音的用戶,也能從錯(cuò)誤的字幕信息中得知有聲音事件發(fā)生,因而沒有遺漏關(guān)鍵的語(yǔ)音信息。

研究人員最后表示,系統(tǒng)偶爾犯下小打小鬧的錯(cuò)誤影響不大,只要提供的信息大部分正確,還是會(huì)贏得用戶的好評(píng)。

更多谷歌最新研究請(qǐng)繼續(xù)關(guān)注雷鋒網(wǎng)報(bào)道。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

谷歌新進(jìn)展:用DNN模型為YouTube視頻添加環(huán)境音效字幕

分享:
相關(guān)文章

編輯

求索于科技人文間, 流連在 AI 浪潮下; 我在這兒, 斟酒,燃香,等你故事
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)