Youtube自動字幕系統(tǒng)已能識別環(huán)境音，但國內(nèi)還在依靠字幕組

本文作者：叨叨

2017-03-26 21:04

導(dǎo)語：各大字幕組永遠在招人

在國內(nèi)，下載好電影后，再去字幕網(wǎng)站搜索外掛字幕，已經(jīng)是影迷們的固有動作。這種習(xí)慣的養(yǎng)成，歸功于近10年來逐漸形成的野生網(wǎng)絡(luò)字幕組，用業(yè)余時間為影迷們貢獻了大量、快速的免費字幕。

相比國內(nèi)的野生字幕組，谷歌的技術(shù)宅們在2009年為Youtube上線了一個自動字幕系統(tǒng)（Automatic Captioning System），借助人工智能技術(shù)，在視頻里實時生成字幕。時隔7年后，YouTube宣布已經(jīng)有10億多條視頻采用了該系統(tǒng)生成的字幕，而全球日活躍用戶也達1500萬。

Youtube自動字幕系統(tǒng)已能識別環(huán)境音，但國內(nèi)還在依靠字幕組

在Google給定的視頻中，可以在設(shè)置中選擇開啟自動字幕，之后視頻下方會隨著視頻中的人聲，逐個顯示對應(yīng)字幕。另外，在字幕開啟菜單中，也有“自動翻譯”的選項，包括中文繁體、簡體在內(nèi)的上百種語言均可翻譯。

Youtube自動字幕系統(tǒng)已能識別環(huán)境音，但國內(nèi)還在依靠字幕組

此外，雷鋒網(wǎng)3月23日還報道過，由Accessibility、Sound Understanding和YouTube三個團隊共同完成了，通過深度神經(jīng)網(wǎng)絡(luò)（DNN）模型，在自動字幕增加音效信息的技術(shù)，進一步提升了觀眾的“看片”體驗。

其中，Google Accessibility 團隊致力于讓每個人都能夠享用互聯(lián)網(wǎng)帶來的便利，尤其是殘障人士，他們主要負責(zé)監(jiān)控 Google 產(chǎn)品的無障礙狀況，協(xié)調(diào)開展無障礙培訓(xùn)、測試并提供咨詢服務(wù)。Accessibility產(chǎn)品團隊需要接受相關(guān)培訓(xùn)，以在產(chǎn)品的設(shè)計和發(fā)布過程中體現(xiàn)無障礙原則。此外他們還努力與各類用戶和致力于推廣無障礙功能的團體建立密切的關(guān)系，以便征求反饋意見。

Youtube自動字幕系統(tǒng)已能識別環(huán)境音，但國內(nèi)還在依靠字幕組

而Youtube的自動字幕系統(tǒng)，在很大程度上實現(xiàn)了視頻觀看的“無障礙”，尤其是聽不到聲音的聾人，也能通過自動生成的字幕進行高質(zhì)量的視頻信息獲取。

Google Sound Understanding 團隊，此前曾負責(zé)AudioSet 數(shù)據(jù)集，致力于教學(xué)機器,通過建立狀態(tài)機器學(xué)習(xí)模型，生成大規(guī)模的音頻事件數(shù)據(jù)集，并定義聲音之間存在的層次關(guān)系，來準確地感知音頻。

Youtube自動字幕系統(tǒng)已能識別環(huán)境音，但國內(nèi)還在依靠字幕組

目前，國內(nèi)主流視頻網(wǎng)站均未推出過自動字幕系統(tǒng)，不過在坊間流傳著一個能夠自動生成字幕的軟件——Autosub，最初該軟件只幫助字幕組成員自動對軸，后來的更新版本調(diào)用了谷歌的API，支持自動生成字幕，不過效果不佳，此后鮮有更新。

雷鋒網(wǎng)還了解到，2011年《電子學(xué)報》的一篇論文稱，以《新聞聯(lián)播》為語料進行訓(xùn)練，實現(xiàn)了音頻提取、音頻分類與切分、說話人識別、大詞匯量連續(xù)語音識別、視頻文件播放、文本字幕自動生成等功能，從而實現(xiàn)“全自動中文新聞字幕生成”。但此論文中并未提及是否可以做到“實時”。

這項技術(shù)的難點在于，一方面一條視頻中的聲音有很多，包括對白和混合在一起非常復(fù)雜的環(huán)境聲，要辨別哪個聲音是我們想要的，并把幾個同時產(chǎn)生的聲音區(qū)分開來相當(dāng)不易；另一方面視頻實時字幕生成，需要在極短的時間內(nèi)做出反饋，對于計算速度考驗巨大。

針對分辨聲音而言，搜狗CEO王小川就表示過，目前語音識別已經(jīng)有了較高的準確度，接近實用，但還有很多的限制。比如需要安靜的環(huán)境，當(dāng)有噪音的時候同時有兩個人說話機器就搞不定了。搜狗的做法是預(yù)先錄制，比如在汽車環(huán)境里面，預(yù)先錄制發(fā)動機引擎的聲音，把沒有見過的環(huán)境變成機器能夠見過的環(huán)境，就能夠做識別。針對計算速度而言，則需要依靠硬件和算法的進步。

現(xiàn)在能實現(xiàn)的程度，需要歸功于過去幾年間，DNN 技術(shù)、Residual/Highway 網(wǎng)絡(luò)技術(shù)和粗粒度建模單元技術(shù)的進展。但環(huán)境音非常復(fù)雜，想要把所有的獨立聲音預(yù)先錄下來，是一項巨大的工程。即便是谷歌自動字幕系統(tǒng)的研究人員們，也只是選取了“鼓掌、音樂、笑聲”三種語義清楚的背景聲。

視頻之外，在語音轉(zhuǎn)文字這項技術(shù)上，國內(nèi)外企業(yè)多有涉及。比如微軟幫助聾人通話實時將語音轉(zhuǎn)換為文字的RogerVoice，比如百度新近推出的SwiftScribe、再如國內(nèi)企業(yè)科大訊飛等，還有各類錄音、速記應(yīng)用程序，都能夠不同程度的支持語音轉(zhuǎn)文字的技術(shù)。一般來說環(huán)境越安靜，識別的準確率越高。

科大訊飛相關(guān)人士向雷鋒網(wǎng)表示，視頻字幕需求分為兩類，一類為已錄制視頻的字幕配置，另一類為直播視頻的字幕配置，科大訊飛的識別技術(shù)均可實現(xiàn)上述兩類字幕需求。

目前訊飛開放平臺已對外提供第一種已錄制視頻字幕配置需求的"語音轉(zhuǎn)寫"產(chǎn)品，準確率可達95%，而對于第二種直播視頻的字幕配置產(chǎn)品將在今年年中對外提供。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

4人收藏

相關(guān)文章