丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給陳彩嫻
發(fā)送

0

錯(cuò)誤率減半需要超過(guò)500倍算力!深度學(xué)習(xí)的未來(lái),光靠燒錢能行嗎?

本文作者: 陳彩嫻 2021-09-26 18:19
導(dǎo)語(yǔ):深度學(xué)習(xí)的誕生,可以追溯到1958年。那一年,時(shí)任康奈爾大學(xué)航空實(shí)驗(yàn)室研究心理學(xué)家與項(xiàng)目工程師的 Frank Rosenblatt 受到大腦神經(jīng)元互連的啟發(fā),設(shè)

錯(cuò)誤率減半需要超過(guò)500倍算力!深度學(xué)習(xí)的未來(lái),光靠燒錢能行嗎?

深度學(xué)習(xí)的誕生,可以追溯到1958年。

那一年,時(shí)任康奈爾大學(xué)航空實(shí)驗(yàn)室研究心理學(xué)家與項(xiàng)目工程師的 Frank Rosenblatt 受到大腦神經(jīng)元互連的啟發(fā),設(shè)計(jì)出了第一個(gè)人工神經(jīng)網(wǎng)絡(luò),并將其稱為一項(xiàng)"模式識(shí)別設(shè)備"。

這項(xiàng)設(shè)備完成后,被嫁接在龐大的 IBM 704 計(jì)算機(jī)中,經(jīng)過(guò)50次試驗(yàn),能夠自動(dòng)區(qū)分標(biāo)志在左邊或右邊的卡片。這使 Frank Rosenblatt 倍感驚喜,他寫(xiě)道:

"能夠創(chuàng)造出一臺(tái)具有人類品質(zhì)的機(jī)器,一向是科幻小說(shuō)的熱門題材,而我們即將見(jiàn)著這樣一臺(tái)能夠感知、并在沒(méi)有任何人工控制的情況下識(shí)別周圍環(huán)境的機(jī)器的誕生。"

錯(cuò)誤率減半需要超過(guò)500倍算力!深度學(xué)習(xí)的未來(lái),光靠燒錢能行嗎?

圖注:感知機(jī)的運(yùn)作原理

不過(guò),與此同時(shí),F(xiàn)rank Rosenblatt 也深知,當(dāng)時(shí)的計(jì)算機(jī)能力無(wú)法滿足神經(jīng)網(wǎng)絡(luò)的運(yùn)算需求。在他的開(kāi)創(chuàng)性工作中,他曾感嘆:"隨著神經(jīng)網(wǎng)絡(luò)中的連接數(shù)量不斷增加……傳統(tǒng)數(shù)字計(jì)算機(jī)的負(fù)載將會(huì)越來(lái)越重。"

錯(cuò)誤率減半需要超過(guò)500倍算力!深度學(xué)習(xí)的未來(lái),光靠燒錢能行嗎?

圖注:Frank Rosenblatt。2004年,IEEE特地成立了"IEEE Frank Rosenblatt Award",以表紀(jì)念

所幸,經(jīng)過(guò)數(shù)十年的發(fā)展,在摩爾定律與其他計(jì)算機(jī)硬件的改進(jìn)加持下,計(jì)算機(jī)的計(jì)算能力有了質(zhì)的飛躍,每秒可執(zhí)行的計(jì)算量增加了1000萬(wàn)倍,人工神經(jīng)網(wǎng)絡(luò)才有了進(jìn)一步發(fā)展的空間。得益于計(jì)算機(jī)的強(qiáng)大算力,神經(jīng)網(wǎng)絡(luò)擁有了更多的連接與神經(jīng)元,也具備了更大的、對(duì)復(fù)雜現(xiàn)象建模的能力。這時(shí),人工神經(jīng)網(wǎng)絡(luò)新增了額外的神經(jīng)元層,也就是我們熟知的"深度學(xué)習(xí)"。

如今,深度學(xué)習(xí)已被廣泛應(yīng)用于語(yǔ)言翻譯、預(yù)測(cè)蛋白質(zhì)折疊、分析醫(yī)學(xué)掃描與下圍棋等任務(wù)。神經(jīng)網(wǎng)絡(luò)在這些應(yīng)用中的成功,使深度學(xué)習(xí)一項(xiàng)默默無(wú)名的技術(shù),成為了如今計(jì)算機(jī)科學(xué)領(lǐng)域的領(lǐng)頭羊。

但是,今天的神經(jīng)網(wǎng)絡(luò)/深度學(xué)習(xí)似乎又遇到了與數(shù)十年前一致的發(fā)展瓶頸:計(jì)算能力的限制。

近日,IEEE Spectrum 發(fā)表了一篇論文,對(duì)深度學(xué)習(xí)的發(fā)展未來(lái)進(jìn)行了一番探討。為什么算力會(huì)成為當(dāng)今深度學(xué)習(xí)的瓶頸?可能的應(yīng)對(duì)方法是什么?如果實(shí)在無(wú)法解決計(jì)算資源的限制,深度學(xué)習(xí)應(yīng)該何去何從?

1、算力:福兮,禍之所倚

深度學(xué)習(xí)被譽(yù)為現(xiàn)代人工智能的主流。早期,人工智能系統(tǒng)是基于規(guī)則,應(yīng)用邏輯與專業(yè)知識(shí)來(lái)推理出結(jié)果;接著,人工智能系統(tǒng)是依靠學(xué)習(xí)來(lái)設(shè)置可調(diào)參數(shù),但參數(shù)量通常有限。

今天的神經(jīng)網(wǎng)絡(luò)也學(xué)習(xí)參數(shù)值,但這些參數(shù)是計(jì)算機(jī)模型的一部分:如果參數(shù)足夠大,它們會(huì)成為通用的函數(shù)逼近器,可以擬合任何類型的數(shù)據(jù)。這種靈活性使得深度學(xué)習(xí)能被應(yīng)用于不同領(lǐng)域。

神經(jīng)網(wǎng)絡(luò)的靈活性來(lái)源于(研究人員)將眾多輸入饋送到模型中,然后網(wǎng)絡(luò)再以多種方式將它們組合起來(lái)。這意味著,神經(jīng)網(wǎng)絡(luò)的輸出是來(lái)自于復(fù)雜公式的應(yīng)用,而非簡(jiǎn)單的公式。也就是說(shuō),神經(jīng)網(wǎng)絡(luò)的計(jì)算量會(huì)很大,對(duì)計(jì)算機(jī)的算力要求也極高。

比方說(shuō),Noisy Student(一個(gè)圖像識(shí)別系統(tǒng))在將圖像的像素值轉(zhuǎn)換為圖像中的物體概率時(shí),它是通過(guò)具有 4.8 億個(gè)參數(shù)的神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。要確定如此大規(guī)模參數(shù)的值的訓(xùn)練更是讓人瞠目結(jié)舌:因?yàn)檫@個(gè)訓(xùn)練的過(guò)程僅用了 120 萬(wàn)張標(biāo)記的圖像。如果聯(lián)想到高中代數(shù),我們會(huì)希望得到更多的等式,而非未知數(shù)。但在深度學(xué)習(xí)方法中,未知數(shù)的確定才是解決問(wèn)題的關(guān)鍵。

深度學(xué)習(xí)模型是過(guò)度參數(shù)化的,也就是說(shuō),它們的參數(shù)量比可用于訓(xùn)練的數(shù)據(jù)點(diǎn)還要多。一般來(lái)說(shuō),過(guò)度參數(shù)也會(huì)導(dǎo)致過(guò)度擬合,這時(shí),模型不僅僅會(huì)學(xué)習(xí)通用的趨勢(shì),還會(huì)學(xué)習(xí)訓(xùn)練數(shù)據(jù)的隨機(jī)變幻。為了避免過(guò)度擬合,深度學(xué)習(xí)的方法是將參數(shù)隨機(jī)初始化,然后使用隨機(jī)梯度下降方法來(lái)迭代調(diào)整參數(shù)集,以更好地?cái)M合數(shù)據(jù)。實(shí)驗(yàn)證明,這個(gè)方法能確保已學(xué)習(xí)的模型具有良好的泛化能力。

深度學(xué)習(xí)模型的成功在機(jī)器翻譯中可見(jiàn)一斑。數(shù)十年來(lái),人們一直使用計(jì)算機(jī)軟件進(jìn)行文本翻譯,從語(yǔ)言 A 轉(zhuǎn)換為語(yǔ)言 B。早期的機(jī)器翻譯方法采用的是語(yǔ)言學(xué)專家設(shè)計(jì)的規(guī)則。但是,隨著一項(xiàng)語(yǔ)言的可用文本數(shù)據(jù)越來(lái)越多,統(tǒng)計(jì)方法,比如最大熵、隱馬爾可夫模型與條件隨機(jī)場(chǎng)等方法,也逐漸應(yīng)用在機(jī)器翻譯中。

最初,每種方法對(duì)不同語(yǔ)言的有效性由數(shù)據(jù)的可用性和語(yǔ)言的語(yǔ)法特性決定。例如,在翻譯烏爾都語(yǔ)、阿拉伯語(yǔ)和馬來(lái)語(yǔ)等語(yǔ)言時(shí),基于規(guī)則的方法要優(yōu)于統(tǒng)計(jì)方法。但現(xiàn)在,所有這些方法都已被深度學(xué)習(xí)超越。凡是深度學(xué)習(xí)已觸及的領(lǐng)域,幾乎都展示了這項(xiàng)機(jī)器學(xué)習(xí)方法的優(yōu)越性。           

一方面,深度學(xué)習(xí)有很強(qiáng)的靈活性;但另一方面,這種靈活性是基于巨大的計(jì)算成本的。

如下圖顯示,根據(jù)已有研究,到2025年,為識(shí)別 ImageNet 數(shù)據(jù)集中的目標(biāo)物體而設(shè)計(jì)的最佳深度學(xué)習(xí)系統(tǒng)的錯(cuò)誤水平應(yīng)該降低到僅 5%:

錯(cuò)誤率減半需要超過(guò)500倍算力!深度學(xué)習(xí)的未來(lái),光靠燒錢能行嗎?

但是,訓(xùn)練這樣一個(gè)系統(tǒng)所需的計(jì)算資源和能耗卻是巨大的,排放的二氧化碳大約與紐約市一個(gè)月所產(chǎn)生的二氧化碳一樣多:

錯(cuò)誤率減半需要超過(guò)500倍算力!深度學(xué)習(xí)的未來(lái),光靠燒錢能行嗎?

計(jì)算成本的提升,主要有兩方面的原因:1)要通過(guò)因素 k 來(lái)提高性能,至少需要 k 的 2 次方、甚至更多的數(shù)據(jù)點(diǎn)來(lái)訓(xùn)練模型;2)過(guò)度參數(shù)化現(xiàn)象。一旦考慮到過(guò)度參數(shù)化的現(xiàn)象,改進(jìn)模型的總計(jì)算成本至少為 k 的 4 次方。這個(gè)指數(shù)中的小小的“4”非常昂貴:10 倍的改進(jìn),就至少需要增加 10,000 倍計(jì)算量。

如果要在靈活性與計(jì)算需求之間取一個(gè)平衡點(diǎn),請(qǐng)考慮一個(gè)這樣的場(chǎng)景:你試圖通過(guò)患者的 X 射線預(yù)測(cè) TA 是否患有癌癥。進(jìn)一步假設(shè),只有你在 X 射線中測(cè)量 100 個(gè)細(xì)節(jié)(即“變量”或“特征”),你才能找到正確的答案。這時(shí),問(wèn)題的挑戰(zhàn)就變成了:我們無(wú)法提前判斷哪些變量是重要的,與此同時(shí),我們又要在大量的候選變量中做選擇。

基于專家知識(shí)的系統(tǒng)在解決這個(gè)問(wèn)題時(shí),是讓有放射科與腫瘤學(xué)知識(shí)背景的人來(lái)標(biāo)明他們認(rèn)為重要的變量,然后讓系統(tǒng)只檢查這些變量。而靈活的深度學(xué)習(xí)方法則是測(cè)試盡可能多的變量,然后讓系統(tǒng)自行判斷哪些變量是重要的,這就需要更多的數(shù)據(jù),而且也會(huì)產(chǎn)生更高的計(jì)算成本。

已經(jīng)由專家事先確認(rèn)重要變量的模型能夠快速學(xué)習(xí)最適合這些變量的值,并且只需少量的計(jì)算——這也是專家方法(符號(hào)主義)早期如此流行的原因。但是,如果專家沒(méi)有正確標(biāo)明應(yīng)包含在模型中的所有變量,模型的學(xué)習(xí)能力就會(huì)停滯。

相比之下,像深度學(xué)習(xí)這樣的靈活模型雖然效率更低,且需要更多的計(jì)算來(lái)達(dá)到專家模型的性能,但通過(guò)足夠的計(jì)算(與數(shù)據(jù)),靈活模型的表現(xiàn)卻可以勝過(guò)專家模型。

顯然,如果你使用更多的計(jì)算能力來(lái)構(gòu)建更大的模型,并使用更多數(shù)據(jù)訓(xùn)練模型,那么你就可以提升深度學(xué)習(xí)的性能。但是,這種計(jì)算負(fù)擔(dān)會(huì)變得多昂貴?成本是否會(huì)高到阻礙進(jìn)展?這些問(wèn)題仍有待探討。

2、深度學(xué)習(xí)的計(jì)算消耗

為了更具體地回答這些問(wèn)題,來(lái)自MIT、韓國(guó)延世大學(xué)與巴西利亞大學(xué)的研究團(tuán)隊(duì)(以下簡(jiǎn)稱“該團(tuán)隊(duì)”)合作,從1000多篇研究深度學(xué)習(xí)的論文中搜集數(shù)據(jù),并就深度學(xué)習(xí)在圖像分類上的應(yīng)用進(jìn)行了詳細(xì)探討。

錯(cuò)誤率減半需要超過(guò)500倍算力!深度學(xué)習(xí)的未來(lái),光靠燒錢能行嗎?

論文地址:https://arxiv.org/pdf/2007.05558.pdf

在過(guò)去的幾年,為了減少圖像分類的錯(cuò)誤,計(jì)算負(fù)擔(dān)也隨之增大。比如,2012 年,AlexNet 模型首次展示了在圖形處理單元 (GPU) 上訓(xùn)練深度學(xué)習(xí)系統(tǒng)的能力:僅僅 AlexNet 的訓(xùn)練就使用了兩個(gè) GPU、進(jìn)行了五到六天的訓(xùn)練。到了 2018 年,NASNet-A 將 AlexNet 的錯(cuò)誤率降低了一半,但這一性能的提升代價(jià)是增加了 1000 多倍的計(jì)算。

從理論上講,為了提升模型的性能,計(jì)算機(jī)的算力至少要滿足模型提升的 4 次方。但實(shí)際情況是,算力至少要提升至 9 次方。這 9 次方意味著,要將錯(cuò)誤率減半,你可能需要 500 倍以上的計(jì)算資源。

這是一個(gè)毀滅性的代價(jià)。不過(guò),情況也未必那么糟糕:現(xiàn)實(shí)與理想的算力需求差距,也許意味著還有未被發(fā)現(xiàn)的算法改進(jìn)能大幅提升深度學(xué)習(xí)的效率。

該團(tuán)隊(duì)指出,摩爾定律和其他硬件的進(jìn)步極大地提高了芯片的性能。這是否意味著計(jì)算需求的升級(jí)無(wú)關(guān)緊要?很不幸,答案是否定的。AlexNet 和 NASNet-A 所使用的計(jì)算資源相差了 1000,但只有 6 倍的改進(jìn)是來(lái)自硬件的改進(jìn);其余則要依靠更多的處理器,或更長(zhǎng)的運(yùn)行時(shí)間,這也就產(chǎn)生了更高的計(jì)算成本。

通過(guò)估計(jì)圖像識(shí)別的計(jì)算成本與性能曲線后,該團(tuán)隊(duì)估計(jì)了需要多少計(jì)算才能在未來(lái)達(dá)到更出色的性能基準(zhǔn)。他們估計(jì)的結(jié)果是,降低 5% 的錯(cuò)誤率需要 10190 億次浮點(diǎn)運(yùn)算。

2019年,馬薩諸塞大學(xué)阿默斯特分校的團(tuán)隊(duì)發(fā)表了“Energy and Policy Considerations for Deep Learning in NLP”的研究工作,便首次揭示了計(jì)算負(fù)擔(dān)背后的經(jīng)濟(jì)代價(jià)與環(huán)境代價(jià),在當(dāng)時(shí)引起了巨大轟動(dòng)。

錯(cuò)誤率減半需要超過(guò)500倍算力!深度學(xué)習(xí)的未來(lái),光靠燒錢能行嗎?

論文地址:https://arxiv.org/pdf/1906.02243.pdf

此前,DeepMind也曾披露,在訓(xùn)練下圍棋的深度學(xué)習(xí)系統(tǒng)時(shí)花了大約 3500 萬(wàn)美元。Open AI 在訓(xùn)練 GPT-3時(shí),也耗資超過(guò)400萬(wàn)美元。后來(lái),DeepMind在設(shè)計(jì)一個(gè)系統(tǒng)來(lái)玩星際爭(zhēng)霸 2 時(shí),就特地避免嘗試多種方法來(lái)構(gòu)建一個(gè)重要的組建,因?yàn)橛?xùn)練成本實(shí)在太高了。

除了科技企業(yè),其他機(jī)構(gòu)也開(kāi)始將深度學(xué)習(xí)的計(jì)算費(fèi)用考慮在內(nèi)。一家大型的歐洲連鎖超市最近便放棄了一個(gè)基于深度學(xué)習(xí)的系統(tǒng)。該系統(tǒng)能顯著提高超市預(yù)測(cè)要購(gòu)買哪些產(chǎn)品的能力,但公司高管放棄了這一嘗試,因?yàn)樗麄冋J(rèn)為訓(xùn)練和運(yùn)行系統(tǒng)的成本太高。

面對(duì)不斷上升的經(jīng)濟(jì)和環(huán)境成本,深度學(xué)習(xí)的研究者需要找到一個(gè)完美的方法,既能提高性能,又不會(huì)導(dǎo)致計(jì)算需求激增。否則,深度學(xué)習(xí)的發(fā)展很可能就此止步。

3、現(xiàn)有的解決方法

針對(duì)這個(gè)問(wèn)題,深度學(xué)習(xí)領(lǐng)域的研究學(xué)者也在不斷努力,希望能解決這個(gè)問(wèn)題。

現(xiàn)有的策略之一,是使用專為高效深度學(xué)習(xí)計(jì)算而設(shè)計(jì)的處理器。這種方法在過(guò)去十年中被廣泛使用,因?yàn)?CPU 已讓位于 GPU,且在某種情況下,CPU 已讓位于現(xiàn)場(chǎng)可編程門陣列和為特定應(yīng)用設(shè)計(jì)的 IC(包括谷歌的TPU)。

從根本上說(shuō),這些方法都犧牲了計(jì)算平臺(tái)的通用性來(lái)提高專門處理一類問(wèn)題的效率。但是,這種專業(yè)化也面臨著收益遞減的問(wèn)題。因此,要獲取長(zhǎng)期收益將需要采用完全不同的硬件框架——比如,可能是基于模擬、神經(jīng)形態(tài)、光子或量子系統(tǒng)的硬件。但到目前為止,這些硬件框架都還沒(méi)有產(chǎn)生太大的影響。

另一種減少計(jì)算負(fù)擔(dān)的方法是生成在執(zhí)行時(shí)規(guī)模更小的神經(jīng)網(wǎng)絡(luò)。這種策略會(huì)降低每次的使用成本,但通常會(huì)增加訓(xùn)練成本。使用成本與訓(xùn)練成本,哪一個(gè)更重要,要取決于具體情況。對(duì)于廣泛使用的模型,運(yùn)行成本在投資總額中的占比最高。至于其他模型,例如那些經(jīng)常需要重新訓(xùn)練的模型,訓(xùn)練成本可能是主要的。在任何一種情況下,總成本都必須大于訓(xùn)練成本。因此,如果訓(xùn)練成本太高,那么總成本也會(huì)很高。也就是說(shuō),第二種策略(減少神經(jīng)網(wǎng)絡(luò)規(guī)模)的挑戰(zhàn)是:它們并沒(méi)有充分降低訓(xùn)練成本。

比如,有一種方法是允許訓(xùn)練大規(guī)模網(wǎng)絡(luò)、但代價(jià)是在訓(xùn)練過(guò)程中會(huì)降低復(fù)雜性,還有一種方法是訓(xùn)練一個(gè)大規(guī)模網(wǎng)絡(luò)、然后"修剪"掉不必要的連接。但是,第二種方法是通過(guò)跨多個(gè)模型進(jìn)行優(yōu)化來(lái)找到盡可能高效的架構(gòu),也就是所謂的“神經(jīng)架構(gòu)搜索”。雖然每一種方法都可以為神經(jīng)網(wǎng)絡(luò)的運(yùn)行帶來(lái)明顯提升,但對(duì)訓(xùn)練的作用都不大,不足以解決我們?cè)跀?shù)據(jù)中看到的問(wèn)題。但是,在大部分情況下,它們都會(huì)增加訓(xùn)練的成本。

有一種可以降低訓(xùn)練成本的新興技術(shù),叫做“元學(xué)習(xí)”。元學(xué)習(xí)的觀點(diǎn)是系統(tǒng)同時(shí)學(xué)習(xí)各種各樣的數(shù)據(jù),然后應(yīng)用于多個(gè)領(lǐng)域。比如,元學(xué)習(xí)不是搭建單獨(dú)的系統(tǒng)來(lái)識(shí)別圖像中的狗、貓和汽車,而是訓(xùn)練一個(gè)系統(tǒng)來(lái)識(shí)別圖像中的所有物體,包括狗、貓和汽車,且可以多次使用。

但是,MIT 的研究科學(xué)家 Andrei Barbu 與他的合作者在2019年發(fā)表了一項(xiàng)工作(“Objectnet: A large-scale bias-controlled dataset for pushing the limits of object recognition models”),揭示了元學(xué)習(xí)的難度。他們發(fā)現(xiàn),即使原始數(shù)據(jù)與應(yīng)用場(chǎng)景之間存在極小差距,也會(huì)嚴(yán)重降低模型(Objectnet)的性能。他們的工作證明,當(dāng)前的圖像識(shí)別系統(tǒng)在很大程度上取決于物體是以特定的角度拍攝,還是以特定的姿勢(shì)拍攝。所以,即使是識(shí)別不同姿勢(shì)拍攝的相同物體,也會(huì)導(dǎo)致系統(tǒng)的準(zhǔn)確度幾乎減半。

UC Berkeley 的副教授 Benjamin Recht 等人在“Do imagenet classifiers generalize to imagenet?”(2019)中也明確地說(shuō)明了這一點(diǎn):即使使用專門構(gòu)建的新數(shù)據(jù)集來(lái)模仿原始訓(xùn)練數(shù)據(jù),模型的性能也會(huì)下降 10% 以上。如果數(shù)據(jù)的微小變化會(huì)導(dǎo)致性能的大幅下降,那么整個(gè)元學(xué)習(xí)系統(tǒng)所需的數(shù)據(jù)可能會(huì)非常龐大。因此,元學(xué)習(xí)的前景也暫時(shí)未能實(shí)現(xiàn)。雷鋒網(wǎng)

還有一種也許能擺脫深度學(xué)習(xí)計(jì)算限制的策略是轉(zhuǎn)向其他可能尚未發(fā)現(xiàn)或未被重視的機(jī)器學(xué)習(xí)類型。如前所述,基于專家的洞察力所構(gòu)建的機(jī)器學(xué)習(xí)系統(tǒng)在計(jì)算上可以更高效,但如果這些專家無(wú)法區(qū)分所有影響因素,那么專家模型的性能也無(wú)法達(dá)到與深度學(xué)習(xí)系統(tǒng)相同的高度。與此同時(shí),研究人員也在開(kāi)發(fā)神經(jīng)符號(hào)方法與其他技術(shù),以將專家知識(shí)、推理與神經(jīng)網(wǎng)絡(luò)中的靈活性結(jié)合起來(lái)。雷鋒網(wǎng)

不過(guò),這些努力都仍在進(jìn)行中。雷鋒網(wǎng)

正如 Frank Rosenblatt 在神經(jīng)網(wǎng)絡(luò)誕生之初所面臨的難題一樣,如今,深度學(xué)習(xí)也受到了可用計(jì)算工具的限制。面對(duì)計(jì)算提升所可能帶來(lái)的經(jīng)濟(jì)和環(huán)境負(fù)擔(dān),我們的出路只有:要么調(diào)整深度學(xué)習(xí)的方式,要么直面深度學(xué)習(xí)停滯的未來(lái)。

相形之下,顯然調(diào)整深度學(xué)習(xí)更可取。

如能找到一種方法,使深度學(xué)習(xí)更高效,或使計(jì)算機(jī)硬件更強(qiáng)大,那么我們就能繼續(xù)使用這些靈活性更高的深度學(xué)習(xí)模型。如果不能突破計(jì)算瓶頸,也許我們又要重返符號(hào)主義時(shí)代,依靠專家知識(shí)來(lái)確定模型需要學(xué)習(xí)的內(nèi)容了。

參考鏈接:

1、https://spectrum.ieee.org/deep-learning-computational-cost
2、https://news.cornell.edu/stories/2019/09/professors-perceptron-paved-way-ai-60-years-too-soon
3、https://www.yuzeh.com/data/agz-cost.html
4、https://deepmind.com/blog/article/alphastar-mastering-real-time-strategy-game-starcraft-ii
5、https://spectrum.ieee.org/open-ais-powerful-text-generating-tool-is-ready-for-business

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

錯(cuò)誤率減半需要超過(guò)500倍算力!深度學(xué)習(xí)的未來(lái),光靠燒錢能行嗎?

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)