語音識別領(lǐng)域的GitHub：Wit.ai讓每個公司擁有自己的“Siri”

本文作者：張馳

2014-10-16 17:50

導(dǎo)語：Wit.ai能將開發(fā)者的語音樣本集合起來，幫助開發(fā)語音及自然語言識別系統(tǒng)，Lebrun認(rèn)為他們的成果在嘗試和廣度上能與蘋果和Google一較高下。這一平臺也反映了一種趨勢，即隨著無屏幕的可穿戴設(shè)備的興趣，越來越多的開發(fā)者會使用語音交互技術(shù)。

即便對蘋果和Google這樣的公司來說，語音識別也很難，兩家公司都收集了大量實時語音數(shù)據(jù)，幫助開發(fā)Siri和Google Now的算法，但效果不盡如人意。對小公司來說，打造語音識別應(yīng)用就更加困難了，而且它們往往無法收集到大量的真實語音數(shù)據(jù)。而這就是Alexandre Lebrun的工作。

他創(chuàng)辦的Wit.ai能將開發(fā)者的語音樣本集合起來，幫助開發(fā)語音及自然語言識別系統(tǒng)，Lebrun認(rèn)為他們的成果在嘗試和廣度上能與蘋果和Google一較高下。這一平臺也反映了一種趨勢，即隨著無屏幕的可穿戴設(shè)備的興趣，越來越多的開發(fā)者會使用語音交互技術(shù)。

目前，Wit.ai已經(jīng)吸引了數(shù)千開發(fā)者，而本周三它在種子輪中融資了300萬美元。

發(fā)現(xiàn)問題

事實上，Wit.ai脫胎于Lebrun之前創(chuàng)立的公司VirtuOz，該公司專為AT&T等公司開發(fā)語音識別系統(tǒng)。但在工作中，Lebrun發(fā)現(xiàn)每開發(fā)一個新系統(tǒng)，一切都要重新開始。對每一個項目，他們都要收集新的語音樣本以訓(xùn)練系統(tǒng)。雖然各項目的語音指令集有重疊的部分，但VirtuOz無法將一位客戶的樣本用于另一位客戶項目。

結(jié)果是，語音識別效果并不完美，在體驗上也十分糟糕。更重要的是，由于語音識別系統(tǒng)的設(shè)置費用相當(dāng)高，服務(wù)商都不會解決小公司或開發(fā)者的需求。

去年，Lebrun將VirtuOz賣給了開發(fā)出Siri的語音識別公司Nuance，然后創(chuàng)立了Wit.ai。

語音識別領(lǐng)域的GitHub：Wit.ai讓每個公司擁有自己的“Siri”

如何運作？

一般而言，語音識別系統(tǒng)的開發(fā)會從“語法”（想要計算機識別的語句的集合）開始，然后開發(fā)者會使用盡可能多的語句發(fā)音樣本“訓(xùn)練”計算機，讓其識別語法。由于用戶指令各異，同一需求有多種表達(dá)方式，所以語法要盡可能多。

Wit.ai所做的是讓公司共享語法和訓(xùn)練數(shù)據(jù)，就像GitHub讓軟件開發(fā)者共享代碼一樣。開發(fā)者能對GitHub上的代碼進行更改，而Wit.ai上的語法也能用于開發(fā)不同的應(yīng)用。

Wit.ai的商業(yè)模式也與GitHub相同，用戶會免費分享數(shù)據(jù)。不過為了保護隱私，用于訓(xùn)練系統(tǒng)的音頻記錄不能共享，而不愿共享語法或數(shù)據(jù)的公司可以付費使用該公司服務(wù)。

免費

與Wit.ai一樣，現(xiàn)在有越來越多的公司和項目能幫助開發(fā)者在各自的應(yīng)用上布署語音識別系統(tǒng)，其中有開源項目Julius和CMU Sphinx，也有Google的語音轉(zhuǎn)文本服務(wù)。Lebrun希望通過免費獲取更多的語法和訓(xùn)練數(shù)據(jù)，最終根據(jù)這些數(shù)據(jù)開發(fā)的系統(tǒng)能與蘋果及Google匹敵。

Wit.ai的一個問題是，所有音頻都要通過互聯(lián)網(wǎng)傳輸?shù)焦镜姆?wù)器，這意味著使用時會出現(xiàn)延時，甚至隱私問題。不過，Lebrun表現(xiàn)，現(xiàn)在已經(jīng)有了一個混合版本，能直接在客戶端工作。

via wired

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章