丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給亞萌
發(fā)送

0

專訪 | 阿里iDST初敏博士和陳一寧博士:如何打破語音技術(shù)的落地怪圈

本文作者: 亞萌 2017-03-31 23:01
導(dǎo)語:在3月29日云棲大會(huì)現(xiàn)場,阿里iDST總監(jiān)初敏博士、iDST語音技術(shù)產(chǎn)品化團(tuán)隊(duì)負(fù)責(zé)人陳一寧博士接受了雷鋒網(wǎng)的專訪。

專訪 | 阿里iDST初敏博士和陳一寧博士:如何打破語音技術(shù)的落地怪圈

雷鋒網(wǎng)按:人工智能技術(shù)大熱,一茬接一茬的AI創(chuàng)業(yè)公司蜂擁而起,得到資本和媒體的寵愛。單是根據(jù)去年4月份的統(tǒng)計(jì)數(shù)據(jù) ,就有170家Chatbot公司燒掉40億美金。而“人工智能”自帶黑科技光環(huán)的技術(shù)名詞,更是每隔幾個(gè)月都要在媒體頭條上“戰(zhàn)勝人類”一次。

今年3月初,Yann Lecun在Twitter上推薦了一篇評(píng)論文章,文章作者Bradford Cross表達(dá)了一個(gè)非常重要的觀點(diǎn):機(jī)器學(xué)習(xí)即服務(wù)(MLaaS)在實(shí)踐中令人失望,而且AI公司往往陷入技術(shù)傲慢里而輕視了用戶需求和公司經(jīng)濟(jì)學(xué)。

如果我們把2016年看做是AI在中國的初露鋒芒的“元年”,受到百般呵護(hù)和追捧,那么到2017年,它就要面臨嚴(yán)酷的商業(yè)社會(huì)考驗(yàn)了。因?yàn)闅w根結(jié)底,技術(shù)的終極價(jià)值都要體現(xiàn)在實(shí)際應(yīng)用里。如何讓AI技術(shù)有效落地、為商業(yè)社會(huì)創(chuàng)造真正的價(jià)值?圍繞這個(gè)問題,AI科技評(píng)論近日采訪了阿里iDST總監(jiān)初敏博士(圖右)和iDST語音技術(shù)產(chǎn)品化團(tuán)隊(duì)負(fù)責(zé)人陳一寧博士(圖左),剝析阿里云在AI技術(shù)落地的過程里走過的坑和邁過的坎。

雷鋒網(wǎng):阿里NASA計(jì)劃發(fā)布之后,iDST與NASA之間的關(guān)系是怎樣的?

初敏:NASA是一個(gè)大的計(jì)劃,我覺得是想把有難度的事情更集中在一起做好,而不是像以前一樣分散在各個(gè)業(yè)務(wù)里。就我所在的團(tuán)隊(duì)而言,應(yīng)該沒有太大的影響。iDST還是集中解決自然語言、計(jì)算機(jī)視覺里比較難的問題。

雷鋒網(wǎng):你們?yōu)槠髽I(yè)提供語音技術(shù)服務(wù)的形式是什么?

陳一寧:我們當(dāng)然提供API、SDK這樣底層的基礎(chǔ)接入。也提供解決方案,但解決方案也分很多種,有的解決方案都細(xì)化到說函數(shù)都定義好了,就剩實(shí)現(xiàn)與否。我們的解決方案會(huì)更往上一點(diǎn),就是給你一個(gè)大體的框架,至于最后軟件設(shè)計(jì)成什么樣子、最后的展現(xiàn)形態(tài),我們也不需要特別地去掌控。所以我們還是主要跟合作伙伴一起完成一個(gè)項(xiàng)目,不是特別端到端大規(guī)模推廣的一種模式。比如奧點(diǎn)云這個(gè)例子,我們會(huì)告訴對(duì)方搭建的整體框圖是什么、如何去搭建,那么再細(xì)化的工作可能就不是由我們來做了。

雷鋒網(wǎng):阿里的語音技術(shù)目前在哪些垂直領(lǐng)域有比較成熟的應(yīng)用?

陳一寧:這次我們發(fā)布的幾個(gè)戰(zhàn)略合作項(xiàng)目都是比較成熟的。第一個(gè)就是與昆石一起發(fā)布的質(zhì)檢云系統(tǒng)。實(shí)際上它是在做線路的質(zhì)檢,主要因?yàn)楝F(xiàn)在詐騙比較多,我們也是希望能夠給社會(huì)做一些貢獻(xiàn)。這個(gè)質(zhì)檢系統(tǒng)能夠檢測(cè)出一些常見的詐騙套路。經(jīng)營者其實(shí)都是對(duì)于詐騙深惡痛絕的,但是又很難發(fā)現(xiàn),靠人工來監(jiān)聽,成本實(shí)在是太高了。那么通過語音識(shí)別的方式,把語音變成文字以后,詐騙的套路就比較容易被檢測(cè)出來。

第二個(gè)就是在直播里生成字幕。實(shí)時(shí)生成字幕在商用直播里正在逐步變成流行的功能了。他們的需求就是,有時(shí)候用戶不能聽、只能看,這個(gè)時(shí)候需要字幕;還有的比如會(huì)議直播,開完之后希望有一個(gè)速記稿出來,那就沒有必要專門請(qǐng)一個(gè)速記員。所以我們跟奧點(diǎn)云合作的就是這類。

第三個(gè)就是泛質(zhì)檢類的服務(wù)。這一塊我們有很多客戶接入,舉個(gè)例子,比如說像有一個(gè)做短租的合作伙伴,他們的商業(yè)模式就是充當(dāng)一個(gè)中介的角色,但是如果中間溝通過程中,兩頭的用戶之間自己打電話或微信私聊,那么這個(gè)商業(yè)模式就被打破了。所以,對(duì)于中介類的公司來說,最敏感的就是不能讓兩邊的用戶互留聯(lián)系方式。但這件事實(shí)際上是很難判斷的,那他們用了我們的服務(wù)以后,就可以幫助他們監(jiān)聽,來進(jìn)行管理。

第四個(gè)就是我們的法庭速記。這已經(jīng)有了一套完整的可復(fù)制的模式,自動(dòng)化生成審判書,甚至現(xiàn)場狀況好的時(shí)候,直接打印出來簽字就可以了。

雷鋒網(wǎng):目前語音市場還是處在被教育的階段嗎?還是說現(xiàn)在已經(jīng)有很多企業(yè)主動(dòng)跑過來找你們了?

陳一寧:我們現(xiàn)在的情況是,主動(dòng)找過來的企業(yè),已經(jīng)應(yīng)接不暇了。那市場是不是還要被教育,我覺得也是的,跟一個(gè)大爆發(fā)市場相比,現(xiàn)在還是一個(gè)先期的狀態(tài)。

初敏:我也覺的目前還是處在一個(gè)市場被教育的階段,這不是一個(gè)所有人都去搶的well-developed的市場。

比如說像奧點(diǎn)云這樣的一個(gè)項(xiàng)目,過去是沒有的,在過去這個(gè)市場是不存在的。這個(gè)市場現(xiàn)在之所以會(huì)存在,是因?yàn)槲覀冊(cè)茥髸?huì)上展示了這樣的技術(shù)和案例,很多人看見了,就覺得自己也想要。我們當(dāng)時(shí)在云棲大會(huì)的直播上出了字幕,所以很多做視頻的就會(huì)說,我也想要這個(gè),所以這才推動(dòng)奧點(diǎn)云這個(gè)項(xiàng)目誕生。就生成字幕這個(gè)技術(shù)而言, 其實(shí)字幕只是一種外在的表現(xiàn)形式,里面更重要的是,語音轉(zhuǎn)成文字之后,就擁有一種新的數(shù)據(jù)形態(tài)了,那你根據(jù)這些數(shù)據(jù),可以對(duì)視頻做檢索,對(duì)視頻內(nèi)容進(jìn)行分析等等,后續(xù)可以做很多事情。

再比如我們?nèi)シㄔ豪镒鏊儆?,這也不是一個(gè)存量市場,一家法院用了之后,其他法院覺得挺好的,才開始有這個(gè)市場。所以我覺的,是我們?cè)谔剿餍碌氖袌?,但是具體到要把某一個(gè)領(lǐng)域真正做的好,不是單單靠我們這邊把一套完整的東西做完,也要靠合作伙伴的精耕細(xì)作。

我們現(xiàn)在很重要的一個(gè)方向,就是把在新領(lǐng)域探索的合作項(xiàng)目經(jīng)驗(yàn)和模式固化下來,這樣我們?cè)诔跗诘耐度氩攀怯袃r(jià)值的。

雷鋒網(wǎng):現(xiàn)在你們的語音技術(shù)有一套固化下來的應(yīng)用模式嗎?

陳一寧:我理解是每一個(gè)行業(yè)是不太一樣的。比如說像我們現(xiàn)在這種司法的領(lǐng)域,其中涉及到個(gè)整個(gè)數(shù)字法庭怎么布置、接入多少路的數(shù)據(jù)、數(shù)據(jù)更新、麥克風(fēng)怎么擺放,什么樣的設(shè)備進(jìn)行回聲消除、是否要有音量顯示......等等整個(gè)一套流程,這就是這個(gè)領(lǐng)域特有的模式。

初敏:對(duì)。其實(shí)是說從某種角度來說,就是要把它變成標(biāo)準(zhǔn)化的流程。除了語音識(shí)別技術(shù)本身,同時(shí)可能要提供一些最基礎(chǔ)的一些工具,比如說麥克風(fēng)音量的監(jiān)測(cè)(音量太大或太小都是不行的)。因?yàn)樵诔跗?,我們的合作伙伴沒有相關(guān)經(jīng)驗(yàn),所以我們有時(shí)候就是要多往前走一步,幫他們一下。比如有時(shí)候兩個(gè)麥克風(fēng)特別近,或者現(xiàn)場一個(gè)喇叭就放在麥克風(fēng)后面,這都是有問題的,那我們團(tuán)隊(duì)就要現(xiàn)場去指導(dǎo)部署。合作伙伴能搞定兩個(gè)了,那之后復(fù)制一百個(gè)也沒問題了,但是頭兩個(gè)我們都會(huì)派人去幫它一起看。

雷鋒網(wǎng):語音技術(shù)應(yīng)用于具體的業(yè)務(wù)場景過程中,你們面臨了哪些阻礙?

初敏:把一個(gè)看似很高大上的技術(shù)成功應(yīng)用,真的是有太多的細(xì)節(jié)問題要去解決。就像我們?cè)茥髸?huì)現(xiàn)場生成字幕,其實(shí)頭兩場云棲大會(huì),我們最害怕的是接線,線路接不對(duì),就會(huì)有巨大的噪聲在里面,那就太嚇人了。我記得有一次,就突然有電噪聲,最后還是請(qǐng)教音頻老師,只要把其中兩個(gè)線路插在一個(gè)電線板上,問題就解決了,但我們之前并不知道。

所以,我們這一年時(shí)間做下來,切身體會(huì)到,語音技術(shù)落地真的不是閉著眼睛就能做到的。一般技術(shù)提供商,會(huì)想當(dāng)然地認(rèn)為,我們有API和SDK,你接入就好了嘛,其實(shí)遠(yuǎn)不是這么回事兒(笑)。這個(gè)過程中,就是要把工作做細(xì),積累成一個(gè)可以復(fù)制的模式。

陳一寧:之前我們擔(dān)心的很多問題,包括麥克風(fēng)的選型、線路搭建、有沒有引入噪聲......這樣的一些落地的細(xì)節(jié)中都會(huì)有很多問題會(huì)產(chǎn)生。

其實(shí)這場云棲大會(huì)的字幕,已經(jīng)徹底是由供應(yīng)商來做全部的事情了。以前的話,是我們團(tuán)隊(duì)自己來做,所以就一場一場慢慢來,到今年云棲大會(huì)的字幕、網(wǎng)上直播的字幕,已經(jīng)都完全是由供應(yīng)商來完成了,我們基本上就沒有參與了。

我們就怕技術(shù)是一個(gè)Demo,就是我能操作,但換一個(gè)人用就不行了。所以我們初期跟合作伙伴磨合,做好幾個(gè)具體項(xiàng)目后,后續(xù)讓他們自己完全掌控,這就是我們特別希望達(dá)到的一個(gè)狀態(tài)。

雷鋒網(wǎng):陳一寧老師,您之前在演講中提到強(qiáng)定制化是阿里的核心競爭力,能具體講講嗎?

陳一寧:語音技術(shù)的實(shí)現(xiàn)跟領(lǐng)域的相關(guān)性很高,它不像輸入法,做出來一個(gè),到哪里都能用。其實(shí)很多時(shí)候,你在一個(gè)領(lǐng)域里做好了技術(shù),到其它場景就不能用了。通用的語音技術(shù)是無法滿足客戶特定需求的,那么我們會(huì)幫助他們?nèi)ザㄖ茖儆谧约旱恼Z音引擎。比如我們的ET智能語音系統(tǒng)正在逐漸對(duì)外開放,最簡單有熱詞的設(shè)置(這個(gè)已經(jīng)開放了),更進(jìn)一步的還可以接入自己的領(lǐng)域數(shù)據(jù),這一點(diǎn)我們內(nèi)部業(yè)務(wù)團(tuán)隊(duì)已經(jīng)在成熟地使用了,之后也會(huì)推廣給外部合作伙伴。

醫(yī)療領(lǐng)域和電商領(lǐng)域,肯定是不相關(guān)的,在知識(shí)上講,各自都有很多的詞匯??蛻粼谧约旱念I(lǐng)域都具有很多的知識(shí)和信息,那么客戶把包含特色信息的文本輸入進(jìn)來,由我們的機(jī)器來學(xué)習(xí)這些文本,識(shí)別率就會(huì)得到提升。

阿里對(duì)于客戶數(shù)據(jù)的保護(hù)是非常嚴(yán)格的,有非常高等級(jí)的要求。除了各種ISO認(rèn)證,內(nèi)部還有很多嚴(yán)格的規(guī)定,是不能看用戶數(shù)據(jù)的。一般來說,各領(lǐng)域的知識(shí),也通常不是敏感的信息。但如果是某些行業(yè)的數(shù)據(jù)敏感度高,那么我們也有專有云來做相關(guān)的事情。

雷鋒網(wǎng):初敏老師,您之前在演講中談到,對(duì)AI公司來說迭代的速度是非常重要的,為什么?

初敏:其實(shí)一個(gè)學(xué)習(xí)的過程,簡單來講就是給一堆數(shù)據(jù),然后從中學(xué)個(gè)模型出來。但是如果從一個(gè)場景數(shù)據(jù)換到另一個(gè)場景數(shù)據(jù),你能夠多快學(xué)出來?

今天所有的機(jī)器學(xué)習(xí)里,如果做的規(guī)模比較大,訓(xùn)練過程是很慢的,有時(shí)幾天、幾星期都弄不好。通常小一點(diǎn)的企業(yè),基本上都是按“月”來迭代的,都兩個(gè)月、三個(gè)月才完成一次完整的調(diào)試。幾十萬和幾千萬的樣本規(guī)模是很不一樣的。典型的語音識(shí)別,如果是2千個(gè)小時(shí)的數(shù)據(jù),只用一塊卡,可能需要好幾天才能迭代一次,那如果是2萬個(gè)小時(shí)的數(shù)據(jù),基本上就不可行了。所以,很多的時(shí)候,底層的技術(shù)保障也是必須的。

我們現(xiàn)在要花很多時(shí)間做多機(jī)多卡,其實(shí)訓(xùn)練模型在整個(gè)過程中間也只是非常小的一環(huán),在整個(gè)鏈條里只占三分之一的時(shí)間,剩下三分之二的時(shí)間就是在倒騰數(shù)據(jù)。比如我們今天,把數(shù)據(jù)存在某個(gè)地方,然后把它拿出來提升feature,然后還要做一輪預(yù)處理(例如語音識(shí)別需要做傳統(tǒng)的HMM),這一套前期的工作可能比在GPU上進(jìn)行深度學(xué)習(xí)訓(xùn)練花費(fèi)的時(shí)間還要多。實(shí)際上,迭代速度決定了你的進(jìn)步速度,是讓A和B真正產(chǎn)生差別的地方。真正到大規(guī)模訓(xùn)練和應(yīng)用的時(shí)候,底層的基礎(chǔ)設(shè)施能力是非常非常重要的。所以今天高校研究就面臨很大的挑戰(zhàn),就是因?yàn)楫?dāng)面臨大規(guī)模數(shù)據(jù)的時(shí)候,就會(huì)做不了,所以通常高校老師會(huì)做算法本身的研究。

那我們現(xiàn)在希望把這個(gè)速度做到按“天”迭代。這當(dāng)中就是主要是基于阿里云的云計(jì)算平臺(tái)的優(yōu)勢(shì)。我們從數(shù)據(jù)的存儲(chǔ)、處理,到不同階段在CPU、GPU上的打通,并發(fā)性比較好,所以才會(huì)比較快。

雷鋒網(wǎng):AI行業(yè)里有一個(gè)很經(jīng)典的問題,就是現(xiàn)在大部分AI公司都是拿著錘子找釘子。你們?nèi)绾谓鉀Q找“釘子”(用戶需求)的問題?

初敏:阿里整個(gè)的氛圍就是比較務(wù)實(shí)的。我覺AI技術(shù)在阿里比較容易成功落地,是因?yàn)槲覀儽容^幸運(yùn)地可以借助很多外力。首先就是有非常多的業(yè)務(wù)場景,這個(gè)是別人很難得到的,往往得到其中一個(gè)就很難,而我們手里有8至10個(gè)非常好的業(yè)務(wù)場景。你的技術(shù)只有在真正用的時(shí)候才能打磨,最終做到真正好用。所以這就是我們覺得很興奮的地方,就像一寧昨天晚上工作到2點(diǎn)才休息,其實(shí)我們團(tuán)隊(duì)很多人真的每天都是這么拼的。因?yàn)槟阌泻芏嗟臉I(yè)務(wù)場景,只要你有能力,你都可以去做。

我們不是到處要找“釘子”,而是“釘子”堆上來了,就看你搞不搞的定。所以我們始終處在一個(gè)超級(jí)興奮的過程中,恨不得每天多做點(diǎn)事兒(笑)。再有一個(gè)就是,阿里云這些非常好的基礎(chǔ)設(shè)施,使得我們?cè)谄鸩降臅r(shí)候,門檻就低很多。

所以雖然我們只有幾十個(gè)人,但我們做了很多事情。當(dāng)然,這些事情也并不全是我們自己做的,我們?cè)趦?nèi)部有很多合作伙伴,特別是工程落地方面,內(nèi)部業(yè)務(wù)都是合作伙伴做的。所以我覺的特別幸運(yùn),就是你有場景、有數(shù)據(jù)、有很好的計(jì)算平臺(tái),還有特別多的合作伙伴一起做事情,我覺得這是我們特別有優(yōu)勢(shì)的地方。

雷鋒網(wǎng):如何看待以亞馬遜Alexa為代表的語音助手,它們會(huì)成為取代手機(jī)的下一代的入口載體嗎? 

初敏:取代手機(jī)是不太可能。無論是什么入口,最終的大目標(biāo)是一致的:為了獲取網(wǎng)上或云上的信息。有時(shí)候手機(jī)觸摸交互就很方便,那如果我在做飯,也許一個(gè)語音交互的冰箱就更合適。在不同的場景中,會(huì)用到不同的端。

我認(rèn)為,未來并不是每一個(gè)家電設(shè)備都要具有接入語音的能力,一個(gè)場景里有一個(gè)主導(dǎo)設(shè)備(Hub)就可以了,可能是音響、Wifi設(shè)備或電視等等,并沒有太本質(zhì)的區(qū)別。無非就是有沒有麥克風(fēng)和揚(yáng)聲器,有沒有攝像頭,最理想的狀態(tài)就是能跟別的設(shè)備都連在一起,那家居的數(shù)據(jù)聯(lián)通問題,就是我們IoT的團(tuán)隊(duì)在做,在慢慢嘗試做一個(gè)接入體系。

那到底是哪類家居會(huì)成為它所在場景里的Hub,我覺的目前這個(gè)是不明確的,大家都在嘗試階段。

雷鋒網(wǎng):2016年你們主要做了什么工作?2017年主要的目標(biāo)是什么?

陳一寧:2016年最主要的事情,就是我們從零開始,對(duì)外提供產(chǎn)品化的語音技術(shù)。這讓我們真正意識(shí)到,我們的技術(shù)確實(shí)能夠幫助到戶,這非常令人振奮。

未來一段時(shí)間,我們更多的是希望跟合作伙伴的業(yè)務(wù)結(jié)合,把已有的合作樣例變成成熟的解決方案,推廣給更多的客戶,這是我們今年著重關(guān)注的事情。

初敏:過去一段時(shí)間,我覺得我們跑的非常快。在別的企業(yè)里頭,可能花了十年時(shí)間積攢的技術(shù),我們2年就做出來了,技術(shù)本身的迭代非常快。

我們并不是在追求技術(shù)的“高大上”,而是希望把技術(shù)做好,最終能落地。那么一寧的團(tuán)隊(duì)沖在最前面,我們的團(tuán)隊(duì)比較在后方一些。語音這個(gè)技術(shù),到底能怎么用,過去大家一想,就說“個(gè)人助理”。但今天我們看到了,遠(yuǎn)遠(yuǎn)不止這么一個(gè)用途。我們所有的市場,都不是存量市場,都需要去開拓。

我們的團(tuán)隊(duì)成員很多是做研究出身的,我們就有一個(gè)特別大的夢(mèng)想,就是把這個(gè)技術(shù)做到真正可以使用。過去這一年,真的是讓我們看到這個(gè)夢(mèng)想實(shí)現(xiàn)的希望,這條路越開越寬,這是我覺得特別興奮的。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

專訪 | 阿里iDST初敏博士和陳一寧博士:如何打破語音技術(shù)的落地怪圈

分享:
相關(guān)文章

編輯

關(guān)注人工智能(AI)報(bào)道
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說