希爾貝殼：做好AI數(shù)據(jù)基礎(chǔ)服務(wù)，實(shí)現(xiàn)人工智能民主化，我們?nèi)沃囟肋h(yuǎn)

本文作者：木子

2021-05-17 18:00

導(dǎo)語(yǔ)：數(shù)據(jù)和算法之間是一個(gè)辯證的關(guān)系，數(shù)據(jù)是算法的基礎(chǔ)，但開(kāi)源的算法也為數(shù)據(jù)質(zhì)量助力。

人工智能時(shí)代已然來(lái)臨，伴隨著人工智能在各個(gè)場(chǎng)景中的落地應(yīng)用，算法、算力不再是高壁壘，為了不斷提高算法精度，算法所必須的數(shù)據(jù)需求也空前爆發(fā)，一度催生了AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)的繁榮。

行業(yè)繁榮的景象之下，還存在著一些問(wèn)題，由于AI基礎(chǔ)數(shù)據(jù)服務(wù)的數(shù)據(jù)標(biāo)注業(yè)務(wù)相對(duì)門(mén)檻較低，玩家魚(yú)龍混雜，使行業(yè)標(biāo)準(zhǔn)模糊，服務(wù)質(zhì)量參差不齊。目前多以人工標(biāo)注為主，傳統(tǒng)標(biāo)注工廠在“人工成本”方面的優(yōu)勢(shì)正不斷被削弱。因此，增強(qiáng)數(shù)據(jù)處理平臺(tái)持續(xù)學(xué)習(xí)和自學(xué)習(xí)能力，利用機(jī)器學(xué)習(xí)輔助人工提升標(biāo)注維度和精度，同時(shí)降低人工成本已經(jīng)成為產(chǎn)業(yè)共識(shí)。另外，數(shù)據(jù)采集層面，針對(duì)數(shù)據(jù)源的版權(quán)問(wèn)題、采集標(biāo)準(zhǔn)問(wèn)題還沒(méi)有很好解決；數(shù)據(jù)庫(kù)的建設(shè)及服務(wù)還保持著一定的壁壘，通用場(chǎng)景的AI技術(shù)不斷成熟，如何建設(shè)高精尖數(shù)據(jù)庫(kù)在行業(yè)當(dāng)下也需要去解決。

希爾貝殼成立于2017年，深耕場(chǎng)景AI數(shù)據(jù)服務(wù)，做好數(shù)據(jù)服務(wù)的技術(shù)創(chuàng)新同時(shí)并開(kāi)始思考數(shù)據(jù)產(chǎn)業(yè)的下一步方向。

疫情肆掠過(guò)后，人工智能應(yīng)用落地速度加快，而這背后，身處AI基礎(chǔ)數(shù)據(jù)行業(yè)的希爾貝殼也在加速前行。

用機(jī)器輔助做數(shù)據(jù)標(biāo)注切入AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)

希爾貝殼創(chuàng)業(yè)初始聚焦語(yǔ)音數(shù)據(jù)服務(wù)，和創(chuàng)始人的背景密切相關(guān)。希爾貝殼CEO卜輝從韓國(guó)高麗大學(xué)AI實(shí)驗(yàn)室碩士畢業(yè)后，就一直從事智能語(yǔ)音技術(shù)及數(shù)據(jù)庫(kù)建設(shè)方向的工作，對(duì)語(yǔ)音數(shù)據(jù)庫(kù)以及語(yǔ)音智能產(chǎn)品有著深入的研究。

AI的算法需要大量帶標(biāo)簽的數(shù)據(jù)，數(shù)據(jù)標(biāo)注則是由人工為主導(dǎo)，在“有多少人工就有多智能”的產(chǎn)業(yè)背景之下，革新技術(shù)，行業(yè)標(biāo)準(zhǔn)和門(mén)檻的提升則顯得更為迫切。

在人工智能快速迭代更新的節(jié)點(diǎn)，卜輝發(fā)現(xiàn)AI技術(shù)成本的變化速度驚人且市場(chǎng)競(jìng)爭(zhēng)激烈，“比如一套通用AI系統(tǒng)相比一年前，價(jià)格基本折了三分之一，但是成就技術(shù)的數(shù)據(jù)并沒(méi)有貶值。相反，數(shù)據(jù)處理、采集和加工的人力成本越來(lái)越高”。

在這樣的背景下，智能化輔助標(biāo)注平臺(tái)顯得尤為重要。這和卜輝最開(kāi)始切入行業(yè)的初衷不謀而合。希爾貝殼的數(shù)據(jù)標(biāo)注平臺(tái)在工作高峰期擁有上萬(wàn)人在并行做數(shù)據(jù)標(biāo)注的工作，如何在降低人工成本的情況下保證數(shù)據(jù)質(zhì)量，卜輝認(rèn)為，應(yīng)當(dāng)基于一個(gè)強(qiáng)大的智能化工作平臺(tái)，通過(guò)完善算法模型和利用大數(shù)據(jù)分析來(lái)提高數(shù)據(jù)質(zhì)量的管控和質(zhì)檢，將重復(fù)的標(biāo)注工作做到智能化管理，提高數(shù)據(jù)標(biāo)注效率。成熟的算法好比智能車(chē)間里的機(jī)器人，大數(shù)據(jù)分析系統(tǒng)好比智慧大腦在24小時(shí)做項(xiàng)目管理工作。

希爾貝殼：做好AI數(shù)據(jù)基礎(chǔ)服務(wù)，實(shí)現(xiàn)人工智能民主化，我們?nèi)沃囟肋h(yuǎn)

對(duì)此，希爾貝殼2018年研發(fā)并應(yīng)用了四套智能標(biāo)注系統(tǒng)來(lái)降低數(shù)據(jù)處理的成本：語(yǔ)音數(shù)據(jù)質(zhì)量評(píng)測(cè)系統(tǒng)、語(yǔ)音自動(dòng)標(biāo)注系統(tǒng)、音頻檢索系統(tǒng)、智能化標(biāo)注眾包大數(shù)據(jù)分析系統(tǒng)。在數(shù)據(jù)任務(wù)分發(fā)、自動(dòng)糾錯(cuò)、數(shù)據(jù)質(zhì)量跟蹤上，提高了數(shù)據(jù)標(biāo)注的效率，降低了1/3的人工成本，實(shí)現(xiàn)從人工到技術(shù)，再讓技術(shù)輔助人工完成高效的標(biāo)注工作。

希爾貝殼：做好AI數(shù)據(jù)基礎(chǔ)服務(wù)，實(shí)現(xiàn)人工智能民主化，我們?nèi)沃囟肋h(yuǎn)

但卜輝對(duì)數(shù)據(jù)的思考并不止于此，“讓懂技術(shù)的人去做數(shù)據(jù)，可以看到數(shù)據(jù)完整的生命周期。另外在數(shù)據(jù)采集方面，要確定版權(quán)除了人為的協(xié)議，還需要技術(shù)的加持，我們已經(jīng)在開(kāi)發(fā)電子認(rèn)證、數(shù)據(jù)加密，既要考慮版權(quán)也要重視數(shù)據(jù)流通的安全?！痹诓份x看來(lái)，好的數(shù)據(jù)能夠幫助算法更好的去落地。

對(duì)此，希爾貝殼還擁有自建數(shù)據(jù)庫(kù)的能力，并根據(jù)不同應(yīng)用場(chǎng)景定制優(yōu)質(zhì)的數(shù)據(jù)庫(kù)，以提高深度學(xué)習(xí)的算法精度，精準(zhǔn)解決產(chǎn)品在場(chǎng)景下的技術(shù)痛點(diǎn)。

探索及制作高精尖數(shù)據(jù)庫(kù)

自建數(shù)據(jù)庫(kù)，是希爾貝殼創(chuàng)立之初就帶有的基因，經(jīng)過(guò)4年的探索之后，卜輝越發(fā)地重視數(shù)據(jù)庫(kù)的業(yè)務(wù)，高精尖數(shù)據(jù)庫(kù)的研發(fā)投入也不斷擴(kuò)大。并且在2019年，與西北工業(yè)大學(xué)音頻語(yǔ)音與語(yǔ)言處理研究組聯(lián)合成立“智能語(yǔ)音與多模態(tài)數(shù)據(jù)實(shí)驗(yàn)室” 。

目前，希爾貝殼的客戶包括阿里、騰訊、京東、聯(lián)想、百度等，“大部分客戶更多的合作在于希爾貝殼的數(shù)據(jù)采標(biāo)方案、數(shù)據(jù)的質(zhì)量和專業(yè)的服務(wù)上。”此外，希爾貝殼持續(xù)在數(shù)據(jù)開(kāi)源的項(xiàng)目上做投入，目前開(kāi)源的數(shù)據(jù)庫(kù)申請(qǐng)規(guī)模已經(jīng)達(dá)到了500+，實(shí)現(xiàn)了我們開(kāi)源數(shù)據(jù)助力產(chǎn)學(xué)研共同發(fā)展的目的，在希爾貝殼的品牌建設(shè)上也樹(shù)立了口碑，在業(yè)務(wù)上也給希爾貝殼開(kāi)拓了新的方向。而卜輝提到的開(kāi)源數(shù)據(jù)項(xiàng)目，就是【AISHELL系列的精標(biāo)語(yǔ)音數(shù)據(jù)集】。

希爾貝殼：做好AI數(shù)據(jù)基礎(chǔ)服務(wù)，實(shí)現(xiàn)人工智能民主化，我們?nèi)沃囟肋h(yuǎn)

響應(yīng)國(guó)家號(hào)召，加深【開(kāi)源】項(xiàng)目建設(shè)

今年3月12日，新華社播發(fā) 《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》，其中【開(kāi)源】首次被明確列入國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展五年規(guī)劃綱要。從綱要提到的“支持?jǐn)?shù)字技術(shù)開(kāi)源社區(qū)等創(chuàng)新聯(lián)合體發(fā)展，完善開(kāi)源知識(shí)產(chǎn)權(quán)和法律體系，鼓勵(lì)企業(yè)開(kāi)放軟件源代碼、硬件設(shè)計(jì)和應(yīng)用服務(wù)”，可以看出國(guó)家在戰(zhàn)略層面對(duì)「開(kāi)源」的肯定和支持。這足以說(shuō)明開(kāi)源是大勢(shì)所趨。

希爾貝殼成立之初就建立了開(kāi)源社區(qū)，開(kāi)源了178小時(shí)的AISHELL-1中文普通話精標(biāo)語(yǔ)音數(shù)據(jù)集。同時(shí)搭載全球最大開(kāi)源語(yǔ)音識(shí)別系統(tǒng)Kaldi做了一套開(kāi)源方案，將有研發(fā)價(jià)值的數(shù)據(jù)貢獻(xiàn)到科研教育機(jī)構(gòu)。

AISHELL-1開(kāi)源之后，卜輝發(fā)現(xiàn)，高校學(xué)生在使用這套方案的同時(shí)，很多中小型企業(yè)也在利用它進(jìn)行語(yǔ)音識(shí)別技術(shù)的研發(fā)和產(chǎn)品相關(guān)研究，但效果就偏弱了一些。

因此，在2018年6月23日Kaldi第三屆全國(guó)線下技術(shù)交流會(huì)上，作為聯(lián)合主辦方之一的希爾貝殼再次開(kāi)源了全球最大的中文開(kāi)源數(shù)據(jù)庫(kù)AISHELL-2，時(shí)長(zhǎng)1000小時(shí)。這個(gè)開(kāi)源項(xiàng)目不只局限于數(shù)據(jù)，還包括Kaldi配套的recipe應(yīng)用。同時(shí)成立了AISHELL Foundation來(lái)共同推進(jìn)語(yǔ)音數(shù)據(jù)和技術(shù)的不斷開(kāi)源計(jì)劃。

AISHELL-2由1991名來(lái)自中國(guó)不同口音區(qū)域的發(fā)言人參與錄制，文本內(nèi)容主要涉及喚醒詞、語(yǔ)音控制詞、智能家居、無(wú)人駕駛、工業(yè)生產(chǎn)等12個(gè)領(lǐng)域。并經(jīng)過(guò)專業(yè)語(yǔ)音校對(duì)人員轉(zhuǎn)寫(xiě)標(biāo)注，通過(guò)了嚴(yán)格質(zhì)量檢驗(yàn)，數(shù)據(jù)庫(kù)文本正確率在98%以上。

AISHELL-2是全球最大的中文語(yǔ)音數(shù)據(jù)開(kāi)源項(xiàng)目，也是最成功的。也正是因?yàn)檫@次開(kāi)源，不僅讓希爾貝殼被業(yè)界所知曉，更是讓讓希爾貝殼收獲了全球的智能語(yǔ)音研究高校合作資源。 “AISHELL-2的開(kāi)源項(xiàng)目，確定了數(shù)據(jù)開(kāi)源的模式，即算法方案、優(yōu)質(zhì)的數(shù)據(jù)集、實(shí)驗(yàn)系統(tǒng)的描述這三個(gè)維度來(lái)做方案，讓開(kāi)源項(xiàng)目能夠惠及更多的開(kāi)發(fā)者。對(duì)比CV領(lǐng)域ImageNet這樣的開(kāi)源數(shù)據(jù)庫(kù)，我們做的還遠(yuǎn)遠(yuǎn)不夠，但我們會(huì)持續(xù)做下去，也希望整個(gè)產(chǎn)業(yè)有更多的人來(lái)貢獻(xiàn)?！辈份x強(qiáng)調(diào)。

希爾貝殼：做好AI數(shù)據(jù)基礎(chǔ)服務(wù)，實(shí)現(xiàn)人工智能民主化，我們?nèi)沃囟肋h(yuǎn)

數(shù)據(jù)庫(kù)做為數(shù)據(jù)產(chǎn)品需要經(jīng)歷投入成本、市場(chǎng)認(rèn)可、數(shù)據(jù)庫(kù)質(zhì)量三個(gè)維度考核，這也形成了數(shù)據(jù)庫(kù)的建設(shè)壁壘。AISHELL-1 & 2中文普通話精標(biāo)語(yǔ)音數(shù)據(jù)集的建設(shè)與開(kāi)源也驗(yàn)證了希爾貝殼自建數(shù)據(jù)庫(kù)的能力。成熟的算法要解決場(chǎng)景化的匹配調(diào)優(yōu)問(wèn)題，讓AI找到了新的挑戰(zhàn)。相對(duì)AISHELL-1 & 2 賦能基礎(chǔ)的語(yǔ)音應(yīng)用技術(shù)，場(chǎng)景化的數(shù)據(jù)庫(kù)建設(shè)更為復(fù)雜，需要考慮技術(shù)的滿足指標(biāo)和真實(shí)場(chǎng)景數(shù)據(jù)的匹配等等。場(chǎng)景數(shù)據(jù)開(kāi)源的方案希爾貝殼也陸續(xù)公開(kāi)發(fā)布了 HI-MIA，智能家居場(chǎng)景的語(yǔ)音喚醒開(kāi)源項(xiàng)目;聯(lián)合昆山杜克大學(xué)一起發(fā)布的多說(shuō)話人語(yǔ)音合成項(xiàng)目AISHELL-3。更是把智能語(yǔ)音技術(shù)+數(shù)據(jù)開(kāi)源的方案樹(shù)立起了希爾貝殼自有的能力門(mén)檻，前沿技術(shù)落地?cái)?shù)據(jù)先行的理念在希爾貝殼充分得到驗(yàn)證。

希爾貝殼：做好AI數(shù)據(jù)基礎(chǔ)服務(wù)，實(shí)現(xiàn)人工智能民主化，我們?nèi)沃囟肋h(yuǎn)

今年希爾貝殼會(huì)推出AISHELL-4,聚焦會(huì)議場(chǎng)景的智能語(yǔ)音技術(shù)方案，目前開(kāi)源項(xiàng)目的論文已經(jīng)公布，該項(xiàng)目方案也是產(chǎn)學(xué)研最全面的會(huì)議場(chǎng)景方案，相信會(huì)推動(dòng)智能語(yǔ)音技術(shù)在會(huì)議場(chǎng)景的研究及落地。

希爾貝殼：做好AI數(shù)據(jù)基礎(chǔ)服務(wù)，實(shí)現(xiàn)人工智能民主化，我們?nèi)沃囟肋h(yuǎn)

希爾貝殼目前已形成了智能語(yǔ)音技術(shù)+數(shù)據(jù)的矩陣開(kāi)源方案，覆蓋語(yǔ)音識(shí)別、聲紋識(shí)別、語(yǔ)音合成、場(chǎng)景智能語(yǔ)音技術(shù)應(yīng)用方案。

數(shù)據(jù)服務(wù)的創(chuàng)新思考：算法和數(shù)據(jù)的辯證關(guān)系

在不斷拓寬業(yè)務(wù)的深度和廣度的同時(shí)，卜輝更著重思考業(yè)務(wù)背后的技術(shù)邏輯，如何用技術(shù)助力和創(chuàng)新業(yè)務(wù)。創(chuàng)業(yè)期間，卜輝一直在思考數(shù)據(jù)標(biāo)注、數(shù)據(jù)采集、數(shù)據(jù)庫(kù)和算法之間的聯(lián)系。在卜輝看來(lái)，數(shù)據(jù)和算法之間是一個(gè)辯證的關(guān)系，數(shù)據(jù)是算法的基礎(chǔ)，但開(kāi)源的算法也為數(shù)據(jù)質(zhì)量助力，此外，數(shù)據(jù)庫(kù)的建設(shè)也需要有前沿算法的意識(shí)?！耙?yàn)閿?shù)據(jù)庫(kù)是為算法和應(yīng)用層服務(wù)的，在對(duì)算法有一定的了解背景下去做數(shù)據(jù)庫(kù)，則更為清晰。另外，技術(shù)落地?cái)?shù)據(jù)先行是一個(gè)必然的趨勢(shì)。當(dāng)技術(shù)逐漸成熟后科研人員更聚焦用數(shù)據(jù)去驗(yàn)證技術(shù)?！?/p>

在AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)中，希爾貝殼已經(jīng)擁有了成熟的兩大業(yè)務(wù)形式，包括數(shù)據(jù)集產(chǎn)品（自建并開(kāi)源數(shù)據(jù)庫(kù)）和數(shù)據(jù)需求的定制服務(wù)（數(shù)據(jù)采集/標(biāo)注）。卜輝說(shuō)道：“做好場(chǎng)景下的數(shù)據(jù)采標(biāo)，垂直在場(chǎng)景建數(shù)據(jù)庫(kù)，已經(jīng)成為希爾貝殼的特色和亮點(diǎn)。在AI新基建的路上，非結(jié)構(gòu)化數(shù)據(jù)的管理、標(biāo)注、分析、安全等還有很多問(wèn)題需要解決，基礎(chǔ)數(shù)據(jù)服務(wù)要跟上產(chǎn)業(yè)的發(fā)展投入研發(fā)拓展創(chuàng)新，才能真正做到服務(wù)產(chǎn)業(yè)服務(wù)好產(chǎn)業(yè)?！?/p>

希爾貝殼：做好AI數(shù)據(jù)基礎(chǔ)服務(wù)，實(shí)現(xiàn)人工智能民主化，我們?nèi)沃囟肋h(yuǎn)

盡管身處在AI基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)，但從希爾貝殼的4年發(fā)展路徑來(lái)看，聚焦場(chǎng)景化數(shù)據(jù)業(yè)務(wù)，其對(duì)人工智能數(shù)據(jù)的思考和創(chuàng)新不止于此，這和創(chuàng)始人卜輝的創(chuàng)新思維有很大的聯(lián)系。卜輝一直強(qiáng)調(diào)，創(chuàng)新的力量，“盡管數(shù)據(jù)服務(wù)屬于人工智能產(chǎn)業(yè)的基礎(chǔ)層，越基礎(chǔ)越要做到扎實(shí)，思考不能局限在這一層，從產(chǎn)業(yè)的角度去思考和改變，不斷提升我們的業(yè)務(wù)能力?！?/p>

在卜輝看來(lái)，希爾貝殼用4年的時(shí)間做數(shù)據(jù)層面的創(chuàng)新只是第一步。談及未來(lái)的規(guī)劃，卜輝說(shuō)道：“通過(guò)技術(shù)引領(lǐng)數(shù)據(jù)業(yè)務(wù)的發(fā)展，通過(guò)數(shù)據(jù)帶動(dòng)技術(shù)產(chǎn)業(yè)的成熟，在未來(lái)用前沿的數(shù)據(jù)庫(kù)去服務(wù)開(kāi)發(fā)者和科研人員，降低企業(yè)在算法落地層面的成本。還要用更多的開(kāi)源數(shù)據(jù)與教育、研發(fā)、產(chǎn)品等相結(jié)合讓技術(shù)落地走進(jìn)更多的場(chǎng)景，為實(shí)現(xiàn)人工智能民主化希爾貝殼還需要更努力。”

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章