1
本文作者: 劉芳平 | 2014-11-06 20:38 |
“The Voice Donor:為盲胞讀書“是由微信市場發(fā)起的一個(gè)創(chuàng)意公益項(xiàng)目,通過眾包模式讓眾多用戶參與進(jìn)來貢獻(xiàn)自己的語音,最后匯聚成一本本的語音讀物捐獻(xiàn)給盲人同胞。這種新穎的公益方式需要強(qiáng)大的技術(shù)來完成,筆者采訪了項(xiàng)目的技術(shù)支持負(fù)責(zé)人劉學(xué)梁,帶你了解為盲胞讀書背后的技術(shù)故事。
這個(gè)項(xiàng)目一開始由微信市場發(fā)起。早期,聲音捐獻(xiàn)數(shù)量不大,因而后臺(tái)能夠支撐,而隨著越來越多的聲音捐獻(xiàn)者參與進(jìn)來,原本的后臺(tái)及人工審核的機(jī)制已經(jīng)不能夠支撐這個(gè)參與量級,因而找到北京的技術(shù)團(tuán)隊(duì)提供支持。“因?yàn)樗麄兗夹g(shù)上遇到一些困難,而我們這邊正好有語音技術(shù),又是一個(gè)公益項(xiàng)目,所以我們都很熱心的幫忙,”劉說。從圖書切割、下發(fā)到語音收集和篩選,最終組裝成一本語音讀物,都由劉學(xué)梁領(lǐng)導(dǎo)的北京團(tuán)隊(duì)來完成。
如何篩選和切割一本書?
技術(shù)團(tuán)隊(duì)的工作之一是把電子書切割成80-120字的片段,存進(jìn)數(shù)據(jù)庫,并在用戶請求時(shí)下發(fā)給他們。但在此之前還需要經(jīng)過一個(gè)嚴(yán)格的圖書篩選過程,選出適合做成有聲讀物的書籍,取得圖書版權(quán)后才能進(jìn)入制作流程?!拔覀儗σ槐緯馁|(zhì)量控制很嚴(yán)格,首先要選取一本合適的讀物,還要專門的同事來檢驗(yàn)這本書的質(zhì)量,之間會(huì)有很多反饋,質(zhì)量通關(guān)后才會(huì)往上放,整個(gè)過程比較漫長?!?/p>
圖書切割也是一個(gè)需要技術(shù)和技巧的過程。劉學(xué)梁說:“我們之前采用全自動(dòng)化切割,根據(jù)標(biāo)點(diǎn)符號和段落來劃分,盡量讓每一段長度合理并把說語義關(guān)聯(lián)的字句放在一起,這些都是通過算法來完成的。但采用這種方法遇到一個(gè)問題:從出版社得到的書是PDF格式的,PDF轉(zhuǎn)TXT會(huì)導(dǎo)致排版上亂掉以及一些頁面的缺失,于是我們后來又在自動(dòng)切割的基礎(chǔ)上加了一輪人工切割,對出版社、目錄、注釋等信息進(jìn)行處理。切割的長度在80-120個(gè)字之間,切完片段會(huì)存到數(shù)據(jù)庫,有用戶請求時(shí)從數(shù)據(jù)庫下發(fā)。如果下發(fā)了用戶沒讀就會(huì)發(fā)給另一個(gè)人讀?!?/p>
如何進(jìn)行語音篩選?
語音篩選是團(tuán)隊(duì)遇到的最大技術(shù)難題,這里面需要用到語音技術(shù),把好的語音和不好的語音區(qū)分開來,比如說有人念的不好或是不完整,噪音太多需要過濾等等。語音篩選是一個(gè)與文本對比的過程。
“通常一個(gè)語音過來,先經(jīng)過特征提取,再經(jīng)過解碼器,取一個(gè)最好的結(jié)果出來,這是一個(gè)類似語音識(shí)別過程。但是篩選是先有了語音和對應(yīng)的文本,再要計(jì)算語音和文本之間匹配關(guān)系,這需要先用文本構(gòu)建出一個(gè)搜索網(wǎng)絡(luò),然后在搜索網(wǎng)絡(luò)里面計(jì)算出一個(gè)得分,再根據(jù)這個(gè)得分判斷這段語音好還是不好,有沒漏讀或錯(cuò)讀。如果讀的比較平滑準(zhǔn)確就是一段好語音,它會(huì)被篩選出來作為語音讀物的材料。這與普通話等級考試有些類似,同樣都要匹配文本,看你讀的是否準(zhǔn)確平滑?!?br/>
語音篩選有一個(gè)打分的過程,通過這個(gè)過程對語音的質(zhì)量進(jìn)行評估,實(shí)際結(jié)果顯示,女性的語音質(zhì)量通常要比男性高,“她們更加自信,讀得也更加認(rèn)真”。而項(xiàng)目的大部分(估計(jì)有90%左右)參與者都是女性,結(jié)果是一本書大部分都是女性的聲音。
總體上后臺(tái)好的語音還是占大多數(shù),差的語音也存在。哪些因素會(huì)導(dǎo)致語音質(zhì)量不高?主要有三點(diǎn):
手機(jī)質(zhì)量不好,采集的語音質(zhì)量就會(huì)較差,這部分會(huì)放棄掉;
之前有一個(gè)bug導(dǎo)致錄入語音時(shí)文本被遮擋,這樣讀出來的語音不完整;
很重的口音,或者有些人離話筒比較遠(yuǎn),也會(huì)導(dǎo)致語音質(zhì)量不高。
劉學(xué)梁說他們非常珍惜每一段語音,盡量不浪費(fèi)。一個(gè)片段只會(huì)投放給一個(gè)人,只有當(dāng)這個(gè)人沒有讀或是讀的質(zhì)量真的有問題,比如有缺損,才會(huì)篩除并讓發(fā)給下一個(gè)讀。
眾包制作的有聲書,質(zhì)量能比得上專業(yè)的嗎?
簡單的回答是:不能,但已經(jīng)接近了。但是,眾包讀書還有自己的優(yōu)勢和公益的性質(zhì)。眾包的有聲書由成百上千人的語音構(gòu)成,而且這些人都不是專業(yè)朗讀者,如何提高質(zhì)量呢?
“如果是專業(yè)朗讀者去讀這些書的話,質(zhì)量自然會(huì)更高一些,但是為盲胞讀書采用眾包模式的優(yōu)勢是速度會(huì)快很多,一個(gè)人一天讀不了一本書,但幾萬人一起讀的話一天就能讀好幾本,長期下來就能積累很多書。對于每個(gè)人聲音不同這方面,習(xí)慣了之后其實(shí)還好,把不同人的聲音連接時(shí)我們也會(huì)做一些處理,使它們音量一樣,讓前后兩個(gè)人的聲音區(qū)分度不會(huì)太大,同時(shí)把語音的前后空白處剪切掉,聽起來會(huì)更流暢。另外我們在進(jìn)行文章切分時(shí)會(huì)盡量讓一段話保持完整,由一個(gè)人來讀,這樣語音之間斷層也是段落之間的區(qū)分。而且很多人會(huì)連續(xù)讀好幾段,我們也會(huì)優(yōu)先考慮把同一個(gè)人讀的段落放在一起?!?/p>
實(shí)際上,為盲胞讀書的用戶質(zhì)量非常高。比如有一些片段包含德文、法文等小語種,多數(shù)人都不懂,會(huì)讀得很差,但也有很多用戶能把它流暢讀出來。筆者在公眾號后臺(tái)親身體驗(yàn)后發(fā)現(xiàn),很多語音都讀得非常專業(yè)。
結(jié)語
一本書總會(huì)有一些段落直到最后還是沒有讀完,這個(gè)時(shí)候團(tuán)隊(duì)成員會(huì)自己上馬把它們讀完,盡快集結(jié)成一本有聲書。
不同的書讀的速度也不一樣,快的一兩天就能讀完(團(tuán)隊(duì)會(huì)同時(shí)下發(fā)好幾本書),一般是名人領(lǐng)讀較受歡迎。
似乎過程很麻煩,質(zhì)量也未必比得上專業(yè)朗讀者制作的,但這種方法制作出來的有聲書已經(jīng)不僅僅是一個(gè)商品,它包含了成千上萬人的愛心在里面。為盲胞讀書(公眾號:voicedonate)已經(jīng)擁有超過50萬參與者,截止目前已制作出超過100本有聲書,有越來越多的盲人同胞從中受益,希望你也能參與進(jìn)來。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。