丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

兼容PyTorch!語音識別大牛Daniel Povey正式發(fā)布新一代框架Kaldi!

本文作者: 我在思考中 2021-09-02 10:29
導(dǎo)語:Daniel Povey是語音識別領(lǐng)域的執(zhí)牛耳者,他主要開發(fā)和維護(hù)的開源工具Kaldi,是業(yè)界公認(rèn)的語音識別框架的基石,他也被稱為Kaldi之父。

兼容PyTorch!語音識別大牛Daniel Povey正式發(fā)布新一代框架Kaldi!

 作者 | 琰琰
8月31日,Daniel Povey以小米集團(tuán)首席語音科學(xué)家的身份,正式推出了新一代Kaldi
Daniel Povey是語音識別領(lǐng)域的執(zhí)牛耳者,他主要開發(fā)和維護(hù)的開源工具Kaldi,是業(yè)界公認(rèn)的語音識別框架的基石,他也被稱為Kaldi之父。
2019年Daniel 離任約翰霍普金斯大學(xué)語言和語音處理中心教職,在 Facebook、美團(tuán)、滴滴、快手等一眾互聯(lián)網(wǎng)巨頭拋來的橄欖枝中選擇了小米,開始帶領(lǐng)小米語音技術(shù)團(tuán)隊(duì)開發(fā)新一代Kaldi。
兼容PyTorch!語音識別大牛Daniel Povey正式發(fā)布新一代框架Kaldi! 
加入小米后,業(yè)界開發(fā)者對Daniel的研究動向一直高度關(guān)注。
昨日Daniel亮相發(fā)布會現(xiàn)場,宣布新一代Kaldi完成了所有子項(xiàng)目的布局。他表示,“新一代Kaldi的目標(biāo)不僅僅是趕上或者稍微領(lǐng)先現(xiàn)有語音識別庫,而是要從根本上改變語音識別的實(shí)現(xiàn)方式?!?/span>
據(jù)悉,經(jīng)過近一年多的技術(shù)研發(fā),Daniel團(tuán)隊(duì)完成了所有模塊的研發(fā)和更新,新一代Kaldi在Librispeech數(shù)據(jù)集上的詞錯(cuò)率降到了2.57%;通過全新代碼庫解決了Kaldi靈活性不足、體量過大等問題;作為核心部件的k2,不僅可以用來做語音識別,也可以用來做手寫文字識別等其他任務(wù)。
 

1

兼容PyTorch,提高識別精度

Kaldi集成了多種語音識別模型,包括隱馬爾可夫和最新的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),自 2011 年發(fā)布以來下載量超過了兩萬多次。無論是工業(yè)界還是學(xué)術(shù)界,幾乎所有的語音團(tuán)隊(duì)都在使用Kaldi引擎來開發(fā)智能解決方案,包括MIT、哈佛、清華、微軟、谷歌、Facebook等等。
兼容PyTorch!語音識別大牛Daniel Povey正式發(fā)布新一代框架Kaldi!
作為語音識別領(lǐng)域的“老前輩”,Kaldi也急需更新迭代。
Daniel在媒體見面會上坦言,初版Kaldi的舊代碼庫已經(jīng)難以滿足機(jī)器學(xué)習(xí)發(fā)展的需求,用戶需要更輕便、更靈活的源代碼,也需要兼容 PyTorch 等主流框架的工具包。
新一代Kaldi的研發(fā)工作從2019開始啟動,去年已經(jīng)完成了k2和Lhotse模塊的研發(fā)工作。Daniel還在2020 MIDC大會上進(jìn)行了展示,不過當(dāng)時(shí) Icefall模塊還只是一個(gè)初步概念。今年研發(fā)團(tuán)隊(duì)進(jìn)一步完善了k2和Lhotse模塊, 并基于二者正式發(fā)布Icefall項(xiàng)目。
Daniel介紹說,與初代Kaldi相比,新一代Kaldi是一個(gè)全新的代碼庫,主要是由C++、CUDA寫就;支持Python調(diào)用;后端也由 PyTorch取代了此前的自定義代碼。
發(fā)布會現(xiàn)場,Daniel團(tuán)隊(duì)不僅展示了如何使用k2和Lhotse來實(shí)現(xiàn)現(xiàn)有的各種不同的語音識別模型,如基于Transformer/Conformer的CTC和LF-MMI等,更著重展示了k2何以能從根本上改變?nèi)藗儗?shí)現(xiàn)語音識別的方式。
兼容PyTorch!語音識別大牛Daniel Povey正式發(fā)布新一代框架Kaldi!
“我們實(shí)現(xiàn)了多輪解碼(mutiple pass decoding)的示例,以及我們稱之為‘雙向建?!?bidirectional modeling)的模型”。Daniel興奮地表示,基于這種多層模型的優(yōu)勢,新一代Kaldi可以大大提高語音識別模型的建模能力,從而降低詞錯(cuò)誤率。目前,新一代Kaldi在LibriSpeech數(shù)據(jù)集上的詞錯(cuò)誤率為2.57%。
值得一提的是,Daniel團(tuán)隊(duì)在k2中實(shí)現(xiàn)了所有的FSA操作的可導(dǎo)性,用戶僅使用幾十行代碼就可以完成復(fù)雜的多層模型結(jié)構(gòu)。同時(shí),他們還為用戶提供了極大的“自定義”空間,諸如在網(wǎng)絡(luò)中加入phone的embedding信息,支持帶置信度的識別等用戶自己的各種想法都能夠基于k2來實(shí)現(xiàn)。
Daniel表示,希望通過新一代Kaldi,能為語音識別領(lǐng)域打開一扇嶄新的大門。
 

2

引入Python,改善靈活性

新一代Kaldi分為Lhotse、Icefall和k2三個(gè)部分,Daniel Povey博士在發(fā)布會上表示,新一代Kaldi的獨(dú)立設(shè)計(jì)是為了降低耦合性,方便用戶使用。更重要的是,這樣有助于擴(kuò)展了組件使用的靈活性。
例如,用作數(shù)據(jù)準(zhǔn)備的Lhotse,既可以用在Icefall項(xiàng)目里,也可以用在任意其他語音識別庫里來處理音頻和文本數(shù)據(jù),
Daniel團(tuán)隊(duì)在發(fā)布會上介紹了Lhotse、Icefall和k2三個(gè)部分的更新細(xì)節(jié)。
Lhotse拋棄了傳統(tǒng)的shell腳本,采用了更加方便易用的Python語言。通過通用且不失靈活性的接口設(shè)計(jì),滿足了包括語音識別,語音合成等多種語音任務(wù)的需求,方便用戶基于Lhotse可以方便地實(shí)現(xiàn)針對自己特定任務(wù)的接口,操縱各種不同的音頻元數(shù)據(jù)和文本。
兼容PyTorch!語音識別大牛Daniel Povey正式發(fā)布新一代框架Kaldi!
Lhotse引入了Audio Cuts的概念,將訓(xùn)練數(shù)據(jù)自動地組織為一組組Cuts,并基于這種表示,提供了on-the-fly的數(shù)據(jù)混合,裁剪,增強(qiáng)和特征提取等操作,從而在不影響數(shù)據(jù)處理效率的前提下,降低了數(shù)據(jù)存儲所需空間。 
此外,Lhotse還提供了很多公開數(shù)據(jù)集的數(shù)據(jù)處理腳本,用戶可以直接使用這些腳本,來進(jìn)行相關(guān)語音任務(wù)的數(shù)據(jù)處理工作,大大降低了用戶在某個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的前期成本。
“相信在不久的將來,隨著新一代Kaldi的推廣和普及,Lhotse甚至有可能成為語音領(lǐng)域使用最為廣泛的數(shù)據(jù)準(zhǔn)備工具?!盌aniel期待地表示。
作為訓(xùn)練腳本的集合,同Lhotse一樣,Icefall也是一個(gè)純Python項(xiàng)目。
兼容PyTorch!語音識別大牛Daniel Povey正式發(fā)布新一代框架Kaldi!
用過Kaldi的人都知道,Kaldi里有大量的基于不同數(shù)據(jù)集的示例腳本,顯著降低了用戶的學(xué)習(xí)成本。
但這同時(shí)也帶來一個(gè)缺點(diǎn):示例腳本集合太過龐大,代碼耦合過于緊密,導(dǎo)致維護(hù)成本較高。
考慮到這一點(diǎn),Daniel表示Icefall并不是對大量腳本的盲目集合,而是在提取公共組件的同時(shí)將不同數(shù)據(jù)集的示例腳本進(jìn)行獨(dú)立組織,以方便用戶的學(xué)習(xí)和使用。
此外,由于將數(shù)據(jù)準(zhǔn)備部分單獨(dú)放在Lhotse項(xiàng)目中,核心計(jì)算部分單獨(dú)放在k2中,Icefall項(xiàng)目只需要關(guān)注語音識別模型的結(jié)構(gòu)定義部分,降低了整個(gè)語音識別過程的耦合性,方便了網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)用。
k2是新一代Kaldi的核心。它的貢獻(xiàn)在于,將加權(quán)有限狀態(tài)轉(zhuǎn)換器(Weighted Finite State Transducers, WFST)和相關(guān)算法無縫地集成到基于Autograd的機(jī)器學(xué)習(xí)工具包中,如PyTorch(已完成支持)和TensorFlow。
兼容PyTorch!語音識別大牛Daniel Povey正式發(fā)布新一代框架Kaldi!
WFST是語音識別領(lǐng)域最為核心的數(shù)據(jù)結(jié)構(gòu),可以用來構(gòu)建諸如“音標(biāo)->詞->句子”的狀態(tài)轉(zhuǎn)換概率圖。
支持WFST可導(dǎo)意味著我們可以做很多以前很難做到,甚至做不到的事情,如消除以往語音識別任務(wù)中訓(xùn)練跟解碼過程不匹配的問題、多輪(可求導(dǎo))的語音識別過程、在聲學(xué)網(wǎng)絡(luò)中嵌入任意輔助信息等。
同時(shí),k2也支持很多現(xiàn)有的語音識別模型,如CTC、LF-MMI、RNN-T等。
值得一提的是,去年Facebook發(fā)布了類似于k2的圖網(wǎng)絡(luò)建模GTN框架。與之相比,k2實(shí)現(xiàn)了更多的WFST相關(guān)算法,并且能夠高效地支持GPU(GTN目前只支持CPU)。GPU實(shí)現(xiàn),意味著語音識別模型的訓(xùn)練速度更快,解碼速度更高效。新一代kaldi的解碼速度已經(jīng)是實(shí)時(shí)的300倍左右。此外,k2在語音識別的基礎(chǔ)上,還可以應(yīng)用于手寫文字識別等其他seq-to-seq的任務(wù)。
 

3

全面賦能小米語音產(chǎn)品

在萬物互聯(lián)的時(shí)代,智能語音交互扮演者越來越重要的角色。嗅覺敏銳的小米早在2017年已經(jīng)注意到到這片藍(lán)海市場。在Daniel加盟之前,小米已經(jīng)逐步搭建了自己的語音技術(shù)團(tuán)隊(duì),并推出了智能語音產(chǎn)品-小愛音箱。2019 年年初,小米創(chuàng)始人雷軍提出“手機(jī) +AIoT"雙引擎發(fā)展戰(zhàn)略,為小米在語音識別領(lǐng)域的發(fā)展指明了一條可行路徑。
“新一代Kaldi或?qū)⒃诿髂曛皩⑷繎?yīng)用到小米所有的智能語音產(chǎn)品中”,Daniel向媒體表示。他說,新一代Kaldi能夠適用各種場景的不同語音模型,如遠(yuǎn)近場語音喚醒、離在線語音識別、說話人識別等通用模型,以及口語評測、語種識別、語音情緒識別等。
以小米小愛為例,“通過它,用戶可以連接到各種各樣的 AIoT 設(shè)備并與它們產(chǎn)生互動:智能音箱、手機(jī)、電視、智能手表、兒童故事機(jī)、車載后視鏡等。”
兼容PyTorch!語音識別大牛Daniel Povey正式發(fā)布新一代框架Kaldi!
不僅是小米,所有企業(yè)、開發(fā)者和普通用戶都可以繼續(xù)享受新一代Kaldi的核心技術(shù)。Daniel表示,當(dāng)初之選擇加盟小米,也是因?yàn)樾∶壮兄ZKaldi可以繼續(xù)作為開源項(xiàng)目。“小米是一家穩(wěn)定的公司,重視開源開放,而且允諾我一直做開源項(xiàng)目,這對于我來說是最好的選擇”
Kaldi從誕生之日起,就是一款開源語音識別工具包。Daniel一直堅(jiān)持開源工作,鼓勵(lì)更廣泛的用戶自由使用、復(fù)制以及修改源代碼,并推動智能語音技術(shù)的發(fā)展。
新一代Kaldi依舊采用了高效的C++代碼實(shí)現(xiàn)。由于將 k2 的C++代碼都包裝到了Python, 模型的訓(xùn)練迭代都可以使用純Python代碼完成。
Daniel表示,基于Icefall中的示例腳本,開發(fā)者們可以很容易地基于自己公司產(chǎn)品的數(shù)據(jù)集進(jìn)行修改,進(jìn)而快速地搭建線上數(shù)據(jù)反饋和模型自動迭代更新的流程,這將大大縮短模型更新的周期。
兼容PyTorch!語音識別大牛Daniel Povey正式發(fā)布新一代框架Kaldi!
隨著新一代Kaldi 的發(fā)布和其在小米產(chǎn)品線的逐步落地,相信在不久的將來,小米將和其他公司一起,為普通用戶帶來更加完善的AIoT產(chǎn)品體驗(yàn)。
正如崔寶秋博士在去年舉行的Kaldi線下交流會中所講,這將是圍繞Kaldi的“四贏”局面:Kaldi項(xiàng)目贏,小米語音贏,全球的Kaldi社區(qū)贏,所有跟Kaldi相關(guān)的中小型公司贏!
 

4

關(guān)于Daniel

Daniel可以說是語音識別領(lǐng)域的殿堂級人物。除了開發(fā)kaldi外,他還對語音識別做出了許多科學(xué)貢獻(xiàn),包括助力判別訓(xùn)練(現(xiàn)在稱為序列訓(xùn)練)的早期發(fā)展等。從1999年發(fā)布語音識別研究成果以來,其論文被引用次數(shù)超過了 30000 次。也因如此,Daniel從約翰斯·霍普金斯大學(xué)離職后,引發(fā)了全球科技巨頭的一場人才爭奪戰(zhàn)。
兼容PyTorch!語音識別大牛Daniel Povey正式發(fā)布新一代框架Kaldi!
Daniel在2012年加入約翰斯·霍普金斯大學(xué),擔(dān)任語言和語音處理中心任副教授。在此之前,他在IBM研究院、微軟研究院從事計(jì)算機(jī)語音識別研究。
2019年10月,Daniel正式加入小米公司,擔(dān)任小米集團(tuán)首席語音科學(xué)家。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

兼容PyTorch!語音識別大牛Daniel Povey正式發(fā)布新一代框架Kaldi!

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說