丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
金融科技 正文
發(fā)私信給AI金融評(píng)論
發(fā)送

0

端到端+預(yù)訓(xùn)練,自然語(yǔ)言突破性進(jìn)展的原因 | 青年科學(xué)家論壇

本文作者: AI金融評(píng)論 2018-09-20 21:06
導(dǎo)語(yǔ):商湯科技聯(lián)合創(chuàng)始人、副總裁徐冰,曠視科技首席科學(xué)家孫劍,Momenta創(chuàng)始人兼CEO曹旭東,微軟亞洲研究院資深研究員韋福如齊聚一堂。

端到端+預(yù)訓(xùn)練,自然語(yǔ)言突破性進(jìn)展的原因 | 青年科學(xué)家論壇

雷鋒網(wǎng)報(bào)道,在9月18日下午上海交通大學(xué)與氪信科技聯(lián)合承辦的世界人工智能大會(huì)特色活動(dòng)——新世代·新疆界·新引擎:青年AI科學(xué)家暢談?wù)搲希?994年圖靈獎(jiǎng)得主、卡內(nèi)基梅隆大學(xué)教授Raj Reddy(羅杰·瑞迪),微軟全球執(zhí)行副總裁沈向洋,攜程董事局主席梁建章,招商局創(chuàng)投總經(jīng)理呂克儉,富士康工業(yè)互聯(lián)網(wǎng)首席戰(zhàn)略官姚忠佑,亞利桑那州立大學(xué)凱瑞商學(xué)院副院長(zhǎng)、上海交通大學(xué)上海高級(jí)金融學(xué)院教授顧彬,及人工智能學(xué)術(shù)界和工業(yè)界的青年科創(chuàng)家們分享了精彩的發(fā)言。

在A(yíng)I前沿產(chǎn)學(xué)研對(duì)話(huà)圓桌環(huán)節(jié),商湯科技聯(lián)合創(chuàng)始人、副總裁徐冰,曠視科技首席科學(xué)家孫劍,Momenta創(chuàng)始人兼CEO曹旭東,微軟亞洲研究院資深研究員韋福如齊聚一堂,上海交通大學(xué)教授、博導(dǎo)盧策吾擔(dān)任主持人。

下為對(duì)話(huà)原文,雷鋒網(wǎng)作了不改變?cè)獾木庉嫞?/em>

主持人:請(qǐng)教各位,你對(duì)基礎(chǔ)性研究的當(dāng)前格局有什么看法,它的機(jī)遇挑戰(zhàn)會(huì)在哪里?以及你們個(gè)人和公司的研究計(jì)劃是怎么樣的?

孫劍:之前,我們也討論過(guò)這個(gè)問(wèn)題。這波AI能夠起來(lái)是靠深度學(xué)習(xí)。今天將很多東西積攢在一起,能夠讓深度學(xué)習(xí)系統(tǒng)訓(xùn)練起來(lái),所有人都可以用。只要有足夠多的數(shù)據(jù)就可以做,這是這波AI能夠繁榮的源動(dòng)力。

同時(shí)也有人會(huì)說(shuō),前兩年的研究進(jìn)展非???,每天都有顛覆性的新東西發(fā)布,在性能、方法各方面。這個(gè)狀態(tài)維持了兩三年。到了今年,各界都在擔(dān)心趨勢(shì)會(huì)不會(huì)放緩,雖然整體數(shù)量上來(lái)了,但是突破性技術(shù)是不是放緩了。在我看來(lái),這個(gè)情況是很正常的,技術(shù)也會(huì)有小的波峰、波谷。

另外一個(gè)問(wèn)題可能是,下一波紅利會(huì)在哪里?我個(gè)人不是很關(guān)心紅利,這波紅利沒(méi)來(lái)之前我也很有信心,我認(rèn)為這種技術(shù)非常有用,只不過(guò)現(xiàn)在加速了。我相信大家投入這么多精力去做會(huì)變得越來(lái)越好。

主持人:您的意思是說(shuō)還有波峰、波谷,持續(xù)投入研究的成果總是會(huì)增長(zhǎng)?

孫劍:接下來(lái)需要突破深度學(xué)習(xí)在解釋性方面的問(wèn)題,研究深度學(xué)習(xí)的基本組件、SGD優(yōu)化問(wèn)題的工作機(jī)理。其實(shí)我跟策吾做的項(xiàng)目,參數(shù)比訓(xùn)練數(shù)據(jù)多10倍、20倍、上百倍。以圖片監(jiān)測(cè)來(lái)說(shuō),人的精度是非常高的,機(jī)器的精度是遠(yuǎn)低于人的,雖然數(shù)字不斷刷新。正如策吾說(shuō)的,“你要增加同樣的數(shù)字,你要增加一倍的數(shù)據(jù)”,這個(gè)現(xiàn)象讓我們感覺(jué)到蠻力的增加計(jì)算量和數(shù)據(jù)量,不一定能夠達(dá)到我們預(yù)期的。要解決問(wèn)題,現(xiàn)在的檢測(cè)框架應(yīng)該拋棄原有的一些東西,加入AI的機(jī)制。如果大家研究清楚,可能會(huì)更容易找到下一個(gè)突破點(diǎn)和方向是什么。

徐冰:徐立(商湯科技CEO)一直都說(shuō)他知道我講不了技術(shù)研究,首先我也是一個(gè)青年,我是沒(méi)有畢業(yè)的博士,但每天被徐立逼迫著要輟學(xué),他成天給我講許多應(yīng)用案例。我是2008年大學(xué)本科讀了這塊的博士,做多媒體方面的工作。我們是一個(gè)趕上了這一波的團(tuán)隊(duì),解決了視覺(jué)方面的問(wèn)題。

其實(shí)從研究角度上說(shuō),我們?cè)?011年就開(kāi)始做深度學(xué)習(xí),直到2014年這幾年都挺困難的。當(dāng)時(shí)人臉識(shí)別在20萬(wàn)的數(shù)據(jù)庫(kù)做訓(xùn)練工作,訓(xùn)練半個(gè)月才出一個(gè)結(jié)果,這個(gè)是極大的局限,算法創(chuàng)新的瓶頸,一年只能迭代24次。包括現(xiàn)在我發(fā)現(xiàn)很多企業(yè)做深度學(xué)習(xí),剛開(kāi)始用深度學(xué)習(xí)做大量數(shù)據(jù)的處理,可能起步的時(shí)候都會(huì)遇到這個(gè)問(wèn)題。你用什么樣的結(jié)算結(jié)構(gòu)能夠把算法迭代的速度提上來(lái)。

2014年我們創(chuàng)立商湯,至今已有四年,我們對(duì)外公布融資額是接近20億美金。我是負(fù)責(zé)給商湯融資的,基本上脫離了學(xué)術(shù)研究范圍,但我經(jīng)常跟徐立研究這筆錢(qián)怎么樣花,用于做遠(yuǎn)期的戰(zhàn)略部署。從學(xué)術(shù)角度上去看,深度學(xué)習(xí)往前去走,但做學(xué)術(shù)研究也要解決實(shí)際問(wèn)題,不管是數(shù)據(jù),還是問(wèn)題,是極大演化的。當(dāng)我們與政府、客戶(hù)打交道的時(shí)候,面對(duì)的問(wèn)題是非受限的問(wèn)題。

以智慧城市為例,如果只是在一個(gè)攝像頭做人臉識(shí)別,很多企業(yè)都可以做到這樣的水平。深圳市有19萬(wàn)支公安連接的攝像頭,找尋恐怖分子、罪犯或者是識(shí)別某一種不文明行為,都是城市治理和日常的公安等的剛性需求。如果在一個(gè)城市范圍做這樣規(guī)模的識(shí)別,10萬(wàn)支攝像頭每天拍下來(lái)的照片,僅僅是人臉的照片就是10億的規(guī)模。假如說(shuō)恐怖分子數(shù)量是10萬(wàn),基本上1天之內(nèi)要發(fā)生的速度是100萬(wàn)億次,99%的算法是不可用的。在這樣的規(guī)模之下,可能就需要你從硬件上和算法生產(chǎn)都可以支持100億,甚至更大規(guī)模的數(shù)量少,做深度學(xué)習(xí)。這樣層次的問(wèn)題,遠(yuǎn)遠(yuǎn)跳出了我們?cè)趯W(xué)校里面做學(xué)術(shù)研究面對(duì)的問(wèn)題。

你也可以發(fā)現(xiàn),現(xiàn)在學(xué)術(shù)界和工業(yè)界做深度學(xué)習(xí)真的是不一樣的,業(yè)界所獲數(shù)據(jù)規(guī)模遠(yuǎn)遠(yuǎn)超過(guò)學(xué)術(shù)界。同時(shí)還要求基礎(chǔ)設(shè)施的過(guò)硬。三年前我們看到了軍備競(jìng)賽,我們花很多錢(qián)買(mǎi)了很多硬件設(shè)備,最后建設(shè)了一個(gè)計(jì)算能力很強(qiáng)的計(jì)算平臺(tái),基于此,才能支撐城市級(jí)別的場(chǎng)景。這是商湯大部分人在干的事情。深度學(xué)習(xí)這幾年經(jīng)歷了跳躍式的進(jìn)步,從原來(lái)要花半個(gè)月的時(shí)間才能從幾十萬(wàn)小時(shí)的錄像中找到犯罪分子,變成一張照片15分鐘找出來(lái),技術(shù)真的改造產(chǎn)業(yè)的工作模式和效率。

在解決行業(yè)問(wèn)題的時(shí)候,我們說(shuō)一定要講非受限的問(wèn)題,而不是把問(wèn)題極度簡(jiǎn)化,不然做出來(lái)的產(chǎn)品經(jīng)常是過(guò)渡性產(chǎn)品,終有一天會(huì)被過(guò)渡掉,終有一天被百億級(jí)的訓(xùn)練顛覆。

主持人:您這一塊有什么樣的看法,無(wú)人車(chē)最大的研究問(wèn)題是什么?

曹旭東:回到基礎(chǔ)研究問(wèn)題思考,我準(zhǔn)備從兩方面回答這個(gè)問(wèn)題,第一個(gè)確定性,第二個(gè)不確定性。對(duì)于創(chuàng)業(yè)公司來(lái)說(shuō),這兩件事情非常重要。只有確定性,則沒(méi)有未來(lái),但是只有不確定性,現(xiàn)在就會(huì)“死掉”。所以要抓住確定性去探討不確定性。第一個(gè)大數(shù)據(jù),第二個(gè)計(jì)算,第三個(gè)算法。

剛才有人提到數(shù)據(jù)優(yōu)化,我們考慮的是怎么樣把1塊錢(qián)一張圖變成1毛錢(qián)一張圖,再怎么樣把1毛錢(qián)標(biāo)注一張圖,這個(gè)對(duì)安全性很重要。所以任何一個(gè)算法需要做到八個(gè)九,需要多大數(shù)據(jù)呢?不同級(jí)別的增加是不一樣的,L4級(jí)別的需要100個(gè)。但100個(gè)我們燒不起,每張圖1塊錢(qián)投資人就不投了。我們?cè)谧龅臄?shù)據(jù)生產(chǎn)線(xiàn)使用AI算法的優(yōu)化,但是零部件有一些問(wèn)題,標(biāo)數(shù)據(jù)也是一樣的,如果標(biāo)注錯(cuò)誤怎么辦?另外標(biāo)注工具怎么樣去設(shè)計(jì)?怎么樣去交互是最優(yōu)的,這樣的設(shè)計(jì)方案,這個(gè)人大概30秒可以標(biāo)出來(lái),這個(gè)東西如何使用?標(biāo)注的數(shù)據(jù)我們都可以收集到,如何通過(guò)算法去優(yōu)化。

除了數(shù)據(jù)之外,我們還做了更多的探索,怎么樣打通商業(yè)閉環(huán),技術(shù)變成產(chǎn)品,產(chǎn)品變成大數(shù)據(jù),形成閉環(huán)。一個(gè)小例子,就是我們做的車(chē)隊(duì)安全管理產(chǎn)品,然后給車(chē)隊(duì)提供一些ADS功能車(chē)隊(duì)的安全性可以提高30-50%,這樣對(duì)于1000車(chē)輛規(guī)模的車(chē)隊(duì),這樣在安全上節(jié)省的費(fèi)用是千萬(wàn)的規(guī)模。對(duì)社會(huì)來(lái)說(shuō)利益更大,司機(jī)駕駛行為的數(shù)據(jù)是非常有用的,每個(gè)車(chē)隊(duì)都會(huì)有很厲害的老司機(jī),省油。如果分析物流這個(gè)行業(yè),會(huì)發(fā)現(xiàn)司機(jī)的工資成本只占了10%+,油費(fèi)占了20%。這意味著,老司機(jī)開(kāi)得好一年省油2萬(wàn),你能很多老司機(jī)的經(jīng)驗(yàn)收集到,變成產(chǎn)品里面的算法,然后再應(yīng)用到自動(dòng)駕駛里面去。

徐冰介紹了很多商湯的大計(jì)算,這里想補(bǔ)充一點(diǎn)的就是做這件事情的原因。緣由是目前還是實(shí)驗(yàn)科學(xué),做實(shí)驗(yàn)跟實(shí)驗(yàn)效率有關(guān)系。同樣都是聰明人,如果你的實(shí)驗(yàn)效率比別人快100倍,至少整個(gè)研發(fā)迭代的效率比另外一個(gè)團(tuán)隊(duì)快10倍就變得很重要了。這個(gè)也是我們?cè)谂Φ姆较?,現(xiàn)在可以做到的千萬(wàn)數(shù)據(jù)級(jí)到億萬(wàn)數(shù)據(jù)集的速度也會(huì)不一樣,差不多一天可以訓(xùn)練完。

第三點(diǎn)算法。之前在學(xué)術(shù)界,數(shù)據(jù)量很小,參數(shù)量挺多,結(jié)果較難得到。隨著時(shí)代發(fā)展之,這件事情反轉(zhuǎn)過(guò)來(lái)了,你會(huì)要求盡可能小的計(jì)算量,這樣可以用更便宜的芯片實(shí)現(xiàn)產(chǎn)品。如何在小模型,參數(shù)很小的模型上,然后去學(xué)到一個(gè)很好的效果。其實(shí)數(shù)據(jù)量有很強(qiáng)的擬合能力,是不是這些參數(shù)都充分的應(yīng)用了。另外在工業(yè)界非常重要的是,如何在有限參數(shù)和現(xiàn)定的參數(shù)和計(jì)算設(shè)計(jì)的情況下,學(xué)出來(lái)一個(gè)更好的結(jié)果?

從2015年開(kāi)始,我發(fā)現(xiàn)自動(dòng)學(xué)習(xí)論文越來(lái)越多。這一兩年更多的是學(xué)習(xí)框架和硬件,聯(lián)合學(xué)習(xí)是未來(lái)比較有趣的方向。我們做了這個(gè)方向,有一些已經(jīng)投入到產(chǎn)品使用。以上所說(shuō)都是“確定性”的,確定性的東西用一個(gè)現(xiàn)象來(lái)總結(jié)就是條件反射。實(shí)際上整個(gè)突破到現(xiàn)在來(lái)說(shuō),都是學(xué)習(xí)跟影射?,F(xiàn)在用深度學(xué)習(xí)感知智能的一些問(wèn)題已經(jīng)得到很好的解決。當(dāng)然,數(shù)據(jù)、模型、算力優(yōu)化會(huì)更好。

韋福如:這3-5年,深度學(xué)習(xí)除了在圖像,在自然語(yǔ)言處理、文本生成上都取得了突破性的結(jié)果。在大數(shù)據(jù),計(jì)算力之外,還有兩個(gè)重點(diǎn)。

第一個(gè)點(diǎn)端到端的自然語(yǔ)言模型,我們希望人去定義、處理句子,先分句子,做詞性標(biāo)注,再做語(yǔ)法分析,然后得到最后結(jié)果。包括機(jī)器翻譯、閱讀理解都是這樣大的框架下面去做的。給定了比較多的數(shù)據(jù)情況下,其實(shí)模型的學(xué)習(xí)能力還是很強(qiáng)的,包括在很多的領(lǐng)域里面達(dá)到或者突破人的水平。

另外一塊是目前我們看到的預(yù)訓(xùn)練的模型。人在學(xué)語(yǔ)言的也是一步一步來(lái)的,這種預(yù)訓(xùn)練的模型就有預(yù)訓(xùn)練的詞向量。最近在閱讀理解任務(wù)上,一戰(zhàn)成名的上下文相關(guān)的詞恩向量,使得把預(yù)訓(xùn)練的效果發(fā)揮更大了。這樣一個(gè)技術(shù)在后面的其他任務(wù)里面也得到一些驗(yàn)證。端到端+預(yù)訓(xùn)練,是自然語(yǔ)言能夠取得突破性結(jié)果很重要的兩個(gè)方面。

自然語(yǔ)言處理為什么很難?有以下的原因。語(yǔ)言天生有歧義性,這個(gè)在深度學(xué)習(xí),詞向量表示的情況下,得到了很好的緩解,能夠計(jì)算句子、詞組,某種程度上緩解了一個(gè)意思有多種表示的挑戰(zhàn)。機(jī)器不知道常識(shí)和知識(shí),而一般人類(lèi)知識(shí)都在非結(jié)構(gòu)化的文本中。某種意義上來(lái)講,我們要在探索如何利用常識(shí)或者知識(shí)的情況下取得一個(gè)折中方式。我們現(xiàn)在能夠有一定的方式獲得非結(jié)構(gòu)化文本的知識(shí),還有一些存在結(jié)構(gòu)化里面這個(gè)接下來(lái)很好研究的。另外,推理也是需要突破的難點(diǎn)。

更多資訊,請(qǐng)關(guān)注雷鋒網(wǎng)AI金融評(píng)論

端到端+預(yù)訓(xùn)練,自然語(yǔ)言突破性進(jìn)展的原因 | 青年科學(xué)家論壇

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

分享:

編輯

關(guān)注金融科技前沿!在這里,讀懂智能金融與未來(lái)!
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄