為盲胞讀書：如何把千萬人的語音匯聚成一本書？

本文作者：劉芳平

2014-11-06 20:38

導(dǎo)語：“The Voice Donor：為盲胞讀書“是由微信市場發(fā)起的一個創(chuàng)意公益項(xiàng)目，通過眾包模式讓眾多用戶參與進(jìn)來貢獻(xiàn)自己的語音，最后匯聚成一本本的語音讀物捐獻(xiàn)給盲人同胞。

“The Voice Donor：為盲胞讀書“是由微信市場發(fā)起的一個創(chuàng)意公益項(xiàng)目，通過眾包模式讓眾多用戶參與進(jìn)來貢獻(xiàn)自己的語音，最后匯聚成一本本的語音讀物捐獻(xiàn)給盲人同胞。這種新穎的公益方式需要強(qiáng)大的技術(shù)來完成，筆者采訪了項(xiàng)目的技術(shù)支持負(fù)責(zé)人劉學(xué)梁，帶你了解為盲胞讀書背后的技術(shù)故事。

這個項(xiàng)目一開始由微信市場發(fā)起。早期，聲音捐獻(xiàn)數(shù)量不大，因而后臺能夠支撐，而隨著越來越多的聲音捐獻(xiàn)者參與進(jìn)來，原本的后臺及人工審核的機(jī)制已經(jīng)不能夠支撐這個參與量級，因而找到北京的技術(shù)團(tuán)隊(duì)提供支持?！耙?yàn)樗麄兗夹g(shù)上遇到一些困難，而我們這邊正好有語音技術(shù)，又是一個公益項(xiàng)目，所以我們都很熱心的幫忙，”劉說。從圖書切割、下發(fā)到語音收集和篩選，最終組裝成一本語音讀物，都由劉學(xué)梁領(lǐng)導(dǎo)的北京團(tuán)隊(duì)來完成。

如何篩選和切割一本書？

技術(shù)團(tuán)隊(duì)的工作之一是把電子書切割成80-120字的片段，存進(jìn)數(shù)據(jù)庫，并在用戶請求時下發(fā)給他們。但在此之前還需要經(jīng)過一個嚴(yán)格的圖書篩選過程，選出適合做成有聲讀物的書籍，取得圖書版權(quán)后才能進(jìn)入制作流程。“我們對一本書的質(zhì)量控制很嚴(yán)格，首先要選取一本合適的讀物，還要專門的同事來檢驗(yàn)這本書的質(zhì)量，之間會有很多反饋，質(zhì)量通關(guān)后才會往上放，整個過程比較漫長?！?/p>

為盲胞讀書：如何把千萬人的語音匯聚成一本書？

圖書切割也是一個需要技術(shù)和技巧的過程。劉學(xué)梁說：“我們之前采用全自動化切割，根據(jù)標(biāo)點(diǎn)符號和段落來劃分，盡量讓每一段長度合理并把說語義關(guān)聯(lián)的字句放在一起，這些都是通過算法來完成的。但采用這種方法遇到一個問題：從出版社得到的書是PDF格式的，PDF轉(zhuǎn)TXT會導(dǎo)致排版上亂掉以及一些頁面的缺失，于是我們后來又在自動切割的基礎(chǔ)上加了一輪人工切割，對出版社、目錄、注釋等信息進(jìn)行處理。切割的長度在80-120個字之間，切完片段會存到數(shù)據(jù)庫，有用戶請求時從數(shù)據(jù)庫下發(fā)。如果下發(fā)了用戶沒讀就會發(fā)給另一個人讀?！?/p>

如何進(jìn)行語音篩選？

語音篩選是團(tuán)隊(duì)遇到的最大技術(shù)難題，這里面需要用到語音技術(shù)，把好的語音和不好的語音區(qū)分開來，比如說有人念的不好或是不完整，噪音太多需要過濾等等。語音篩選是一個與文本對比的過程。

“通常一個語音過來，先經(jīng)過特征提取，再經(jīng)過解碼器，取一個最好的結(jié)果出來，這是一個類似語音識別過程。但是篩選是先有了語音和對應(yīng)的文本，再要計(jì)算語音和文本之間匹配關(guān)系，這需要先用文本構(gòu)建出一個搜索網(wǎng)絡(luò)，然后在搜索網(wǎng)絡(luò)里面計(jì)算出一個得分，再根據(jù)這個得分判斷這段語音好還是不好，有沒漏讀或錯讀。如果讀的比較平滑準(zhǔn)確就是一段好語音，它會被篩選出來作為語音讀物的材料。這與普通話等級考試有些類似，同樣都要匹配文本，看你讀的是否準(zhǔn)確平滑?！?br/>

為盲胞讀書：如何把千萬人的語音匯聚成一本書？

語音篩選有一個打分的過程，通過這個過程對語音的質(zhì)量進(jìn)行評估，實(shí)際結(jié)果顯示，女性的語音質(zhì)量通常要比男性高，“她們更加自信，讀得也更加認(rèn)真”。而項(xiàng)目的大部分（估計(jì)有90%左右）參與者都是女性，結(jié)果是一本書大部分都是女性的聲音。

總體上后臺好的語音還是占大多數(shù)，差的語音也存在。哪些因素會導(dǎo)致語音質(zhì)量不高？主要有三點(diǎn)：

手機(jī)質(zhì)量不好，采集的語音質(zhì)量就會較差，這部分會放棄掉；
之前有一個bug導(dǎo)致錄入語音時文本被遮擋，這樣讀出來的語音不完整；
很重的口音，或者有些人離話筒比較遠(yuǎn)，也會導(dǎo)致語音質(zhì)量不高。

劉學(xué)梁說他們非常珍惜每一段語音，盡量不浪費(fèi)。一個片段只會投放給一個人，只有當(dāng)這個人沒有讀或是讀的質(zhì)量真的有問題，比如有缺損，才會篩除并讓發(fā)給下一個讀。

眾包制作的有聲書，質(zhì)量能比得上專業(yè)的嗎？

簡單的回答是：不能，但已經(jīng)接近了。但是，眾包讀書還有自己的優(yōu)勢和公益的性質(zhì)。眾包的有聲書由成百上千人的語音構(gòu)成，而且這些人都不是專業(yè)朗讀者，如何提高質(zhì)量呢？

“如果是專業(yè)朗讀者去讀這些書的話，質(zhì)量自然會更高一些，但是為盲胞讀書采用眾包模式的優(yōu)勢是速度會快很多，一個人一天讀不了一本書，但幾萬人一起讀的話一天就能讀好幾本，長期下來就能積累很多書。對于每個人聲音不同這方面，習(xí)慣了之后其實(shí)還好，把不同人的聲音連接時我們也會做一些處理，使它們音量一樣，讓前后兩個人的聲音區(qū)分度不會太大，同時把語音的前后空白處剪切掉，聽起來會更流暢。另外我們在進(jìn)行文章切分時會盡量讓一段話保持完整，由一個人來讀，這樣語音之間斷層也是段落之間的區(qū)分。而且很多人會連續(xù)讀好幾段，我們也會優(yōu)先考慮把同一個人讀的段落放在一起?！?/p>

實(shí)際上，為盲胞讀書的用戶質(zhì)量非常高。比如有一些片段包含德文、法文等小語種，多數(shù)人都不懂，會讀得很差，但也有很多用戶能把它流暢讀出來。筆者在公眾號后臺親身體驗(yàn)后發(fā)現(xiàn)，很多語音都讀得非常專業(yè)。

結(jié)語

一本書總會有一些段落直到最后還是沒有讀完，這個時候團(tuán)隊(duì)成員會自己上馬把它們讀完，盡快集結(jié)成一本有聲書。

不同的書讀的速度也不一樣，快的一兩天就能讀完（團(tuán)隊(duì)會同時下發(fā)好幾本書），一般是名人領(lǐng)讀較受歡迎。

似乎過程很麻煩，質(zhì)量也未必比得上專業(yè)朗讀者制作的，但這種方法制作出來的有聲書已經(jīng)不僅僅是一個商品，它包含了成千上萬人的愛心在里面。為盲胞讀書（公眾號：voicedonate）已經(jīng)擁有超過50萬參與者，截止目前已制作出超過100本有聲書，有越來越多的盲人同胞從中受益，希望你也能參與進(jìn)來。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

劉芳平

編輯

微信：liu_fangping

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

為盲胞讀書：如何把千萬人的語音匯聚成一本書？

為盲胞讀書：如何把千萬人的語音匯聚成一本書？