1
本文作者: 劉芳平 | 2014-11-06 20:38 |
“The Voice Donor:為盲胞讀書“是由微信市場發(fā)起的一個創(chuàng)意公益項目,通過眾包模式讓眾多用戶參與進來貢獻自己的語音,最后匯聚成一本本的語音讀物捐獻給盲人同胞。這種新穎的公益方式需要強大的技術(shù)來完成,筆者采訪了項目的技術(shù)支持負(fù)責(zé)人劉學(xué)梁,帶你了解為盲胞讀書背后的技術(shù)故事。
這個項目一開始由微信市場發(fā)起。早期,聲音捐獻數(shù)量不大,因而后臺能夠支撐,而隨著越來越多的聲音捐獻者參與進來,原本的后臺及人工審核的機制已經(jīng)不能夠支撐這個參與量級,因而找到北京的技術(shù)團隊提供支持?!耙驗樗麄兗夹g(shù)上遇到一些困難,而我們這邊正好有語音技術(shù),又是一個公益項目,所以我們都很熱心的幫忙,”劉說。從圖書切割、下發(fā)到語音收集和篩選,最終組裝成一本語音讀物,都由劉學(xué)梁領(lǐng)導(dǎo)的北京團隊來完成。
如何篩選和切割一本書?
技術(shù)團隊的工作之一是把電子書切割成80-120字的片段,存進數(shù)據(jù)庫,并在用戶請求時下發(fā)給他們。但在此之前還需要經(jīng)過一個嚴(yán)格的圖書篩選過程,選出適合做成有聲讀物的書籍,取得圖書版權(quán)后才能進入制作流程?!拔覀儗σ槐緯馁|(zhì)量控制很嚴(yán)格,首先要選取一本合適的讀物,還要專門的同事來檢驗這本書的質(zhì)量,之間會有很多反饋,質(zhì)量通關(guān)后才會往上放,整個過程比較漫長。”
圖書切割也是一個需要技術(shù)和技巧的過程。劉學(xué)梁說:“我們之前采用全自動化切割,根據(jù)標(biāo)點符號和段落來劃分,盡量讓每一段長度合理并把說語義關(guān)聯(lián)的字句放在一起,這些都是通過算法來完成的。但采用這種方法遇到一個問題:從出版社得到的書是PDF格式的,PDF轉(zhuǎn)TXT會導(dǎo)致排版上亂掉以及一些頁面的缺失,于是我們后來又在自動切割的基礎(chǔ)上加了一輪人工切割,對出版社、目錄、注釋等信息進行處理。切割的長度在80-120個字之間,切完片段會存到數(shù)據(jù)庫,有用戶請求時從數(shù)據(jù)庫下發(fā)。如果下發(fā)了用戶沒讀就會發(fā)給另一個人讀?!?/p>
如何進行語音篩選?
語音篩選是團隊遇到的最大技術(shù)難題,這里面需要用到語音技術(shù),把好的語音和不好的語音區(qū)分開來,比如說有人念的不好或是不完整,噪音太多需要過濾等等。語音篩選是一個與文本對比的過程。
“通常一個語音過來,先經(jīng)過特征提取,再經(jīng)過解碼器,取一個最好的結(jié)果出來,這是一個類似語音識別過程。但是篩選是先有了語音和對應(yīng)的文本,再要計算語音和文本之間匹配關(guān)系,這需要先用文本構(gòu)建出一個搜索網(wǎng)絡(luò),然后在搜索網(wǎng)絡(luò)里面計算出一個得分,再根據(jù)這個得分判斷這段語音好還是不好,有沒漏讀或錯讀。如果讀的比較平滑準(zhǔn)確就是一段好語音,它會被篩選出來作為語音讀物的材料。這與普通話等級考試有些類似,同樣都要匹配文本,看你讀的是否準(zhǔn)確平滑?!?br/>
語音篩選有一個打分的過程,通過這個過程對語音的質(zhì)量進行評估,實際結(jié)果顯示,女性的語音質(zhì)量通常要比男性高,“她們更加自信,讀得也更加認(rèn)真”。而項目的大部分(估計有90%左右)參與者都是女性,結(jié)果是一本書大部分都是女性的聲音。
總體上后臺好的語音還是占大多數(shù),差的語音也存在。哪些因素會導(dǎo)致語音質(zhì)量不高?主要有三點:
手機質(zhì)量不好,采集的語音質(zhì)量就會較差,這部分會放棄掉;
之前有一個bug導(dǎo)致錄入語音時文本被遮擋,這樣讀出來的語音不完整;
很重的口音,或者有些人離話筒比較遠,也會導(dǎo)致語音質(zhì)量不高。
劉學(xué)梁說他們非常珍惜每一段語音,盡量不浪費。一個片段只會投放給一個人,只有當(dāng)這個人沒有讀或是讀的質(zhì)量真的有問題,比如有缺損,才會篩除并讓發(fā)給下一個讀。
眾包制作的有聲書,質(zhì)量能比得上專業(yè)的嗎?
簡單的回答是:不能,但已經(jīng)接近了。但是,眾包讀書還有自己的優(yōu)勢和公益的性質(zhì)。眾包的有聲書由成百上千人的語音構(gòu)成,而且這些人都不是專業(yè)朗讀者,如何提高質(zhì)量呢?
“如果是專業(yè)朗讀者去讀這些書的話,質(zhì)量自然會更高一些,但是為盲胞讀書采用眾包模式的優(yōu)勢是速度會快很多,一個人一天讀不了一本書,但幾萬人一起讀的話一天就能讀好幾本,長期下來就能積累很多書。對于每個人聲音不同這方面,習(xí)慣了之后其實還好,把不同人的聲音連接時我們也會做一些處理,使它們音量一樣,讓前后兩個人的聲音區(qū)分度不會太大,同時把語音的前后空白處剪切掉,聽起來會更流暢。另外我們在進行文章切分時會盡量讓一段話保持完整,由一個人來讀,這樣語音之間斷層也是段落之間的區(qū)分。而且很多人會連續(xù)讀好幾段,我們也會優(yōu)先考慮把同一個人讀的段落放在一起?!?/p>
實際上,為盲胞讀書的用戶質(zhì)量非常高。比如有一些片段包含德文、法文等小語種,多數(shù)人都不懂,會讀得很差,但也有很多用戶能把它流暢讀出來。筆者在公眾號后臺親身體驗后發(fā)現(xiàn),很多語音都讀得非常專業(yè)。
結(jié)語
一本書總會有一些段落直到最后還是沒有讀完,這個時候團隊成員會自己上馬把它們讀完,盡快集結(jié)成一本有聲書。
不同的書讀的速度也不一樣,快的一兩天就能讀完(團隊會同時下發(fā)好幾本書),一般是名人領(lǐng)讀較受歡迎。
似乎過程很麻煩,質(zhì)量也未必比得上專業(yè)朗讀者制作的,但這種方法制作出來的有聲書已經(jīng)不僅僅是一個商品,它包含了成千上萬人的愛心在里面。為盲胞讀書(公眾號:voicedonate)已經(jīng)擁有超過50萬參與者,截止目前已制作出超過100本有聲書,有越來越多的盲人同胞從中受益,希望你也能參與進來。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。