丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給郭思
發(fā)送

0

IEEE Fellow 張磊:普及大模型,手機(jī)端的創(chuàng)新很關(guān)鍵

本文作者: 郭思 2023-09-25 11:00
導(dǎo)語:大模型規(guī)?;渴鸬年P(guān)鍵與難點(diǎn)是什么?

IEEE Fellow 張磊:普及大模型,手機(jī)端的創(chuàng)新很關(guān)鍵

2022年底以來,以ChatGPT為代表的大模型集中爆發(fā),實(shí)現(xiàn)了從無到有,從0到1的跨越。

而經(jīng)過近一年的發(fā)展,算力資源吃緊,成本居高不下,數(shù)據(jù)隱私泄露等問題導(dǎo)致行業(yè)開始迷茫,大模型接下來從1到10甚至到100的規(guī)模化部署似乎還很遙遠(yuǎn)。

各家普遍認(rèn)識(shí)到,AI要想走進(jìn)千家萬戶,就不能僅僅是一個(gè)停留在網(wǎng)頁里面的助手,而應(yīng)擁有改變現(xiàn)實(shí)世界的四肢。

這個(gè)四肢,便是眾多廠商都在紛紛發(fā)力的端側(cè)AI。(關(guān)于端側(cè)AI的進(jìn)展與觀察,歡迎添加本文作者郭思微信:lionceau2046, 互通有無。)

5月份,Google推出了可以在旗艦手機(jī)上離線運(yùn)行的PaLM2 輕量版Gecko,高通則在6月發(fā)布了《混合AI是AI的未來》白皮書;備受矚目的meta Llama 2可通過陳天奇MLC-LLM在本地進(jìn)行部署。

針對(duì)這一現(xiàn)象,2023年9月,AI科技評(píng)論與香港理工大學(xué)講座教授、IEEE Fellow 張磊展開了一場(chǎng)對(duì)話。

在張磊看來, ChatGPT出現(xiàn)之后大語言模型還會(huì)繼續(xù)快速發(fā)展,通用大模型的發(fā)展更多取決于多模態(tài)的對(duì)齊研究;但大模型在端側(cè)芯片上的運(yùn)行有極大挑戰(zhàn),終端側(cè)的創(chuàng)新可能會(huì)成為未來生成式AI能否成功普及的關(guān)鍵。

2006年,張磊入職香港理工大學(xué)擔(dān)任助理教授,17年成為該校的講座教授直至如今。學(xué)術(shù)研究上,張磊長(zhǎng)期致力于計(jì)算機(jī)視覺、圖像處理、模式識(shí)別等方向的研究,是底層視覺方面的國際權(quán)威學(xué)者。他同時(shí)擔(dān)任著IEEE Trans. on Image Processing (TIP)的高級(jí)編委,IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI)、SIAM Journal of Imaging Sciences等多個(gè)國際期刊的編委。從2015年至2023年,張磊連續(xù)被評(píng)為 Clarivate Analytics Highly Cited Researcher (全球高引用學(xué)者,論文在學(xué)科領(lǐng)域引用量排名前1%)。

2018年,張磊投身產(chǎn)業(yè)界,加入達(dá)摩院(P11),2021年底他離開達(dá)摩院。其后加入OPPO研究院,致力于以AI算法加持影像,打造更極致的手機(jī)拍照體驗(yàn)。

他經(jīng)歷了15、16年人工智能發(fā)展浪潮,是眾多投身于工業(yè)界的人工智能學(xué)者之一,也是同時(shí)感受到2022年底大模型火爆與消費(fèi)電子寒冬兩波浪潮的科學(xué)家,對(duì)于大模型的落地有著自己的思考。

以下是張磊和 AI 科技評(píng)論的對(duì)話實(shí)錄,含其主要觀點(diǎn),經(jīng) AI 科技評(píng)論節(jié)選整理如下:

AI+影像是高端手機(jī)競(jìng)爭(zhēng)的熱點(diǎn)


AI 科技評(píng)論:您的研究主要是底層視覺相關(guān)嗎?

張磊:計(jì)算機(jī)視覺可以簡(jiǎn)單劃分為上層視覺、中層視覺和底層視覺。

上層視覺是關(guān)于「看明白」的事情,包括物體檢測(cè)、圖像識(shí)別、圖像理解等等;中層視覺是將輸入圖像轉(zhuǎn)換成中等抽象的表示,用以判斷每個(gè)像素或區(qū)域的屬性,包括圖像分割、深度圖估計(jì)等;而底層視覺則更多是關(guān)于「看清楚」的事情,包括圖像超分、去噪、去模糊、去霧、去雨、暗光增強(qiáng)等。

用個(gè)淺顯的例子便是,如果有一張狗的圖片,將一張模糊的狗的圖片細(xì)節(jié)變得更加清晰的過程是底層視覺,而識(shí)別圖片里面有一只狗這件事情是上層視覺,將狗和背景區(qū)域分割開來則是中層視覺。

我本人在底層視覺的研究時(shí)間最長(zhǎng),但其實(shí)目前我團(tuán)隊(duì)的研究不限于底層視覺,涵蓋了中層以及上層視覺的內(nèi)容,也包含一些神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的基礎(chǔ)研究。

AI 科技評(píng)論:深度學(xué)習(xí)的浪潮對(duì)您產(chǎn)生了哪些具體的影響?

張磊:前期我的研究方向較多關(guān)注在底層視覺,相對(duì)而言,深度學(xué)習(xí)沖擊底層視覺的時(shí)間比上層視覺本來就慢了幾年。2014年,深度學(xué)習(xí)圖像超分辨率開山之作SRCNN剛剛被提出,但并沒有體現(xiàn)出比傳統(tǒng)算法太多的優(yōu)勢(shì)。

另一方面,由于我所帶領(lǐng)的團(tuán)隊(duì)在以稀疏表示、低帙表達(dá)等技術(shù)做圖像復(fù)原方面達(dá)到一個(gè)較高的水準(zhǔn),我當(dāng)時(shí)并不認(rèn)為深度學(xué)習(xí)會(huì)超越這些方法。2014年,我的博士生顧舒航在國際計(jì)算機(jī)視覺和模式識(shí)別大會(huì)(CVPR 2014)上發(fā)表的加權(quán)核范數(shù)最小化(WNNM)的方法,將傳統(tǒng)去噪算法的效果推進(jìn)到了一個(gè)新高度,成為傳統(tǒng)非深度學(xué)習(xí)算法的一個(gè)標(biāo)桿,這讓我對(duì)更加堅(jiān)定了自己的看法,覺得至少在底層視覺領(lǐng)域,或許我們可以和深度學(xué)習(xí)抗衡。但后面,我的態(tài)度發(fā)生了轉(zhuǎn)變。

AI 科技評(píng)論:什么事情使您改變了對(duì)深度學(xué)習(xí)的看法?

張磊:對(duì)于深度學(xué)習(xí), 我經(jīng)歷了從被動(dòng)接受到主動(dòng)擁抱的過程。我此前用的方法比如稀疏表示和低帙表達(dá)等,都具備一些理論上完備的框架,也比較符合我的思維習(xí)慣,很長(zhǎng)一段時(shí)間里我認(rèn)為深度學(xué)習(xí)在做分類、檢測(cè)等方面,確實(shí)很有效,但不一定能沖擊底層視覺,但事實(shí)證明我錯(cuò)了。

16年,我的博士生張凱,十分興奮地跑過來和我說:張老師,我用殘差網(wǎng)絡(luò)做了圖像去噪,比WNNM還要好很多。我有點(diǎn)吃驚,說實(shí)話,當(dāng)時(shí)有些難以接受。

后來我進(jìn)行了反思,在深度學(xué)習(xí)的時(shí)代,確實(shí)研究的方法和形式和以往發(fā)生了深刻的變化,不管你是否情愿。就深度學(xué)習(xí)的研究而言,年輕人更有優(yōu)勢(shì),他們沒有過多條條框框,敢想、敢做,很多我認(rèn)為不可思議的事情都發(fā)生了。我們這一代,雖然還沒有成為過去式,但應(yīng)該多向年輕人學(xué)習(xí),很多時(shí)候,學(xué)生是我們的老師,他們更有創(chuàng)意。

AI 科技評(píng)論:當(dāng)時(shí)候發(fā)布的Beyond a Gaussian denoiser: Residual learning of deep CNN for image denoising是不是與此相關(guān)?

張磊:張凱的那個(gè)工作就是后來發(fā)表的“Beyond a Gaussian denoiser: Residual learning of deep CNN for image denoising”(DnCNN),目前被引用6700多次,在底層視覺領(lǐng)域算是很高的。這個(gè)工作證明了residual learning(殘差學(xué)習(xí))和batch normalization(批量歸一化)在圖像復(fù)原中相輔相成的作用,可以在較深的網(wǎng)絡(luò)的條件下,帶來快的收斂和好的性能。

雖然DnCNN主要是探討高斯去噪問題,用單模型應(yīng)對(duì)不同強(qiáng)度的高斯噪聲;但其也可以用單模型應(yīng)對(duì)超分辨率、JPEG去塊效應(yīng)等其它底層視覺問題,是一個(gè)較為通用的框架。

這算是我團(tuán)隊(duì)第一篇真正意義上關(guān)于深度學(xué)習(xí)的文章。

AI 科技評(píng)論:在現(xiàn)在手機(jī)的高端化之爭(zhēng)中,折疊屏與影像功能已經(jīng)成為兩大破局點(diǎn),您覺得AI加持影像功能,是否會(huì)成為智能手機(jī)下一個(gè)技術(shù)爆發(fā)點(diǎn)?

張磊:AI 拍照功能,其實(shí)在五六年之前就已經(jīng)在部分手機(jī)使用了,現(xiàn)在已經(jīng)十分普及。但用 AI 來輔助手機(jī)拍照,依然存在很多解決不了的場(chǎng)景,尤其是在一些極端情況下。

在端側(cè)用生成式模型來解決拍照的問題,其實(shí)是我個(gè)人的一個(gè)目標(biāo),現(xiàn)在還處于一個(gè)初級(jí)階段。什么時(shí)候能夠做成功不敢說,但在拍照這個(gè)具體的方向里面,這肯定是 AI 加持手機(jī)的一個(gè)重要爆點(diǎn)。

AI 科技評(píng)論: 生成式模型拍照和普通的拍照帶給用戶最直觀的區(qū)別是什么?

張磊:生成式模型拍照和普通拍照一個(gè)比較大的區(qū)別,在于我們現(xiàn)在的普通拍照方式,有很多場(chǎng)景還是會(huì)拍糊,比如光線很暗的時(shí)候,背光的時(shí)候,有物體運(yùn)動(dòng)的時(shí)候,或者距離較遠(yuǎn),我們還是會(huì)出現(xiàn)畫質(zhì)不清的情況,為了得到一張效果理想的照片,我們可能會(huì)需要進(jìn)行大量的后期處理。

但是這樣的處理方式有一個(gè)上限,有些問題可能還是無法完全解決。但是生成式模型通過大數(shù)據(jù)學(xué)習(xí)獲取到了強(qiáng)大的高質(zhì)量自然圖像的先驗(yàn),可以去拿來去補(bǔ)足這些缺陷。所以我個(gè)人感覺用生成式模型輔助拍照,可能會(huì)對(duì)拍照的畫質(zhì)以及適用泛化性,都有很大的提升。

泛化性可以理解為,無論在什么條件下,我們都能拍出一張很好的照片。簡(jiǎn)而言之,我覺得生成式AI是有這個(gè)潛力的,但能不能做得出來的話,那就考驗(yàn)包括我在內(nèi)的很多同行的努力了。


跨學(xué)科研究對(duì) AGI 至關(guān)重要


AI 科技評(píng)論:您以香港理工大學(xué)講座教授的身份跨入業(yè)界,以學(xué)術(shù)研究和工業(yè)界兩種視角來看待AI的發(fā)展,有哪些異同?

張磊:16 年之后有好多高校的教授到工業(yè)界發(fā)展,后來也回來了很多,這種現(xiàn)象其實(shí)能夠反映很多的問題。

以前在學(xué)術(shù)界做論文、做研究其實(shí)挺舒服的,去工業(yè)界未必會(huì)能夠帶來多大的收益。16 年深度學(xué)習(xí)火了以后,在計(jì)算機(jī)視覺,包括最近在自然語言處理方面,都帶來了非常顯著的效果,比其他的方法要明顯很多,不是一個(gè)量級(jí),所以這波浪潮就給了高校的很多教授一個(gè)信心進(jìn)入工業(yè)界。我 18 年去阿里達(dá)摩院,也是受到這波浪潮的影響。

但是投入工業(yè)界不代表一定能取得成功,高校有明確的定位,屬于偏純研究性質(zhì)的機(jī)構(gòu),是以產(chǎn)生新知識(shí)為導(dǎo)向,但工業(yè)界是需要解決實(shí)際問題,產(chǎn)生生產(chǎn)力并帶來實(shí)際價(jià)值的。如果踏入工業(yè)界是想在工業(yè)界的研究院里邊繼續(xù)做高校發(fā)論文的事情,這個(gè)心態(tài)就很容易出問題。

有意思的是在 AI 發(fā)展到大模型的時(shí)代,往往主導(dǎo)的都不是高校,而是一些工業(yè)界頭部廠商的研究機(jī)構(gòu)。工業(yè)界它又有資源又有人才,并且這些人才不比學(xué)術(shù)界里面的差,這對(duì)于高校老師來說其實(shí)也是一件很有危機(jī)感的事情。

我對(duì)學(xué)術(shù)研究有極大的興趣,絕對(duì)不會(huì)放棄這件事情,而同時(shí)跨界在工業(yè)界,我有一個(gè)強(qiáng)烈的愿望,自己做了這么多年的底層視覺,要能夠?qū)⒖蒲谐晒趯?shí)際場(chǎng)景里去使用。這對(duì)我是一個(gè)很大的挑戰(zhàn),也是我的使命,這可能也是我們這批人共同的想法,只是每個(gè)人的實(shí)施路徑不一樣。

AI 科技評(píng)論: 產(chǎn)業(yè)現(xiàn)在出現(xiàn)了百模大戰(zhàn),您如何評(píng)價(jià)這個(gè)現(xiàn)象?

張磊:大模型火爆至今,行業(yè)內(nèi)出現(xiàn)了百模大戰(zhàn), 投融資消息也層出不窮。表面上好像是很多投資的錢被燒掉了,但我覺得這些投資人和投資機(jī)構(gòu)其實(shí)很偉大,雖然自己暫時(shí)耗掉了一些財(cái)富,但為整個(gè)人類科技的發(fā)展做出了很大貢獻(xiàn),讓大家看到了AI技術(shù)發(fā)展帶來的巨大威力。即使Open AI不掙錢哪怕最后倒閉了,它對(duì)整個(gè)科技史做出的巨大貢獻(xiàn)也會(huì)永載史冊(cè)。

AI 科技評(píng)論:通用視覺大模型是共識(shí),您怎樣看待這個(gè)趨勢(shì)?

張磊:簡(jiǎn)單來講就把語言跟視覺信息,甚至其它模態(tài)的信息,都對(duì)齊融合了。我覺得這個(gè)路肯定還是要走一段時(shí)間,不會(huì)那么快就徹底解決。

視覺大模型相對(duì)于大語言模型,稍微復(fù)雜一些。但是目前分割大模型,比如SAM,也已經(jīng)是做得很不錯(cuò)了,至少給大家看到在特定的視覺任務(wù)里,能夠把很多不同的子任務(wù)統(tǒng)一到一個(gè)模型里,做到通用。在圖像生成方面,Midjourney和Stable Diffusion都給了人很驚艷的效果,大大促進(jìn)了整個(gè)行業(yè)的發(fā)展。但是他們的可控性、穩(wěn)定性各個(gè)方面其實(shí)還是改進(jìn)的空間,需要不斷的去往前迭代,當(dāng)然這其實(shí)也涉及一個(gè)多模態(tài)發(fā)展配齊的問題。(本文作者:郭思,微信lionceau2046,長(zhǎng)期關(guān)注大模型行業(yè)動(dòng)態(tài),歡迎交個(gè)朋友、互通有無。)

AI 科技評(píng)論:怎么理解多模態(tài)發(fā)展對(duì)齊?

張磊:其實(shí)一個(gè)人從小到大的成長(zhǎng)過程里面,一直都是多模態(tài)地感知這個(gè)世界的,但凡你缺少任何一個(gè)感知器官,比如說如果你看不見,那你肯定無法很好地理解這個(gè)世界,聽不見也是一樣的。

少一個(gè)維度,對(duì)于很多事情我們都無法做到完整的理解。現(xiàn)在大模型的發(fā)展,語言跟視覺是兩個(gè)最關(guān)鍵、最核心的模態(tài)。但是也不排除有其它一些模態(tài)的結(jié)合,包括觸覺和嗅覺信息等維度。即使是語言和視覺本身,都可以細(xì)分出很多子模態(tài)需要對(duì)齊,提升感知和理解能力。

只有等這些維度都能夠互相之間去對(duì)齊融合,才能有更大的可能性。

就比如人腦,肯定也是在做類似的事情,你接受信息的模態(tài)越多,并都能對(duì)齊拉通的時(shí)候,你對(duì)于整個(gè)世界的理解才能更全面,這是一個(gè)很自然的事情。

但至于這個(gè)人的大腦機(jī)制到底是怎么運(yùn)轉(zhuǎn)的,就需要很多的生物學(xué)家以及心理學(xué)家去進(jìn)行研究,這些跨學(xué)科的研究對(duì)于AI的發(fā)展肯定是大有益處的,但進(jìn)展可能就沒有那么快了。


端側(cè) AI 是大勢(shì)所趨


AI科技評(píng)論:2022年是消費(fèi)電子的寒冬期,如今似乎也沒有好轉(zhuǎn),大模型時(shí)代,您認(rèn)為手機(jī)廠商會(huì)往哪個(gè)方向發(fā)展?

張磊:因?yàn)槿蚪?jīng)濟(jì)形勢(shì)的關(guān)系,手機(jī)銷量下滑,并且低谷可能還需要幾年時(shí)間才能過去,但這并不是代表著說大家不用手機(jī)了,只是換機(jī)的時(shí)候要多考慮考慮腰包的問題。AI在手機(jī)拍照里應(yīng)用已經(jīng)五六年了,目前大模型來了以后,在手機(jī)里進(jìn)行落地應(yīng)用,也是一個(gè)必然的趨勢(shì)。

AI科技評(píng)論:能否聊聊您所看到的端側(cè)AI的進(jìn)展?

張磊:學(xué)術(shù)界的研究顯示Stable Diffusion這種文生圖的大模型在高通的平臺(tái)上,5-8 秒左右可以生成一個(gè) 512 * 512的圖片。但其實(shí)已經(jīng)有論文驗(yàn)證在蘋果的芯片上 2 秒就完成了,因?yàn)樘O果是自研芯片,內(nèi)存比較大。最近又有論文,把生成式模型的多階段采樣蒸餾為一步完成,勢(shì)必又可以加大不少生成模型端側(cè)落地的可行性。我長(zhǎng)期接觸手機(jī)拍照的研發(fā),發(fā)現(xiàn)一個(gè)學(xué)術(shù)界經(jīng)常忽略的問題,再強(qiáng)大的算法如果遇到功耗的瓶頸,也會(huì)巧婦難為無米之炊,大模型在端側(cè)落地最大的挑戰(zhàn)還是在于功耗的把控。

AI科技評(píng)論:除此之外, 端側(cè)AI落地還有哪樣的難點(diǎn)?

張磊:我們拿大語言模型(LLM)做例子,LLM通常包含數(shù)十億或數(shù)百億的參數(shù),其輸入的序列長(zhǎng)度是動(dòng)態(tài)變化的,在端側(cè)我們往往只能用CPU或GPU來優(yōu)化,但CPU或GPU功耗相對(duì)較高。如果我們想使用功耗低很多的NPU來優(yōu)化,往往只能固定序列長(zhǎng)度,這就會(huì)導(dǎo)致模型效果的損失。因此,目前只能在功耗和效果之間做痛苦的權(quán)衡。

同時(shí),這些模型在運(yùn)行時(shí)需要大量的內(nèi)存來存儲(chǔ)模型參數(shù)和臨時(shí)數(shù)據(jù),而手機(jī)芯片通常具有有限的內(nèi)存資源。而一旦涉及芯片硬件平臺(tái)的升級(jí),周期就會(huì)變得漫長(zhǎng),隨隨便便就得一兩年。這也成為了大模型在手機(jī)端運(yùn)行的一個(gè)卡點(diǎn)。

AI科技評(píng)論:您覺得未來端側(cè)AI會(huì)呈現(xiàn)哪樣的發(fā)展態(tài)勢(shì)?

張磊:我覺得可能會(huì)有兩條線。一個(gè)就是純端側(cè),數(shù)據(jù)不出手機(jī)。如果是這個(gè)方向,就需要考慮對(duì)于芯片和算法的訴求是什么,估計(jì)可能幾年之內(nèi)就有產(chǎn)品出來,說不定比我想的還要快。第二,現(xiàn)在很多互聯(lián)網(wǎng)廠包括終端廠商,特別強(qiáng)調(diào)端云協(xié)同,發(fā)揮云端的算力,同時(shí)端側(cè)也可以做一些相應(yīng)的事情,將安全性風(fēng)險(xiǎn)降到最低,協(xié)同效應(yīng)達(dá)到大化。

AI科技評(píng)論:您怎樣看待一體機(jī)的發(fā)展?

張磊:我對(duì)于一體機(jī)沒多大感知,但是對(duì)于家庭用機(jī)器人這種產(chǎn)品形態(tài)很看好。

中國人特別重視子女教育,同時(shí)老齡化問題又那么嚴(yán)重,這是一個(gè)值得去思考的問題。家用機(jī)器人一旦有很強(qiáng)的通用AI能力,就可以解決一些小孩的教育以及老人的陪護(hù)問題,成本也可以做得很低。

用戶在家里如果有各種問題,可以用語音或其它方式與機(jī)器人交互,每個(gè)家庭都可以擁有一臺(tái)甚至多臺(tái)機(jī)器人,做為在家里可以移動(dòng)的助手。這個(gè)事情一定會(huì)在將來的某個(gè)時(shí)刻發(fā)生,成本也可以做得很低,用戶幾千塊錢就可以擁有,和手機(jī)價(jià)格差不多。當(dāng)然你不要讓這種機(jī)器人去做一些炒菜搬運(yùn)的工作,更多的是充當(dāng)智能助手和陪伴的角色。

雷峰網(wǎng) 雷峰網(wǎng) 雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))



雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

IEEE Fellow 張磊:普及大模型,手機(jī)端的創(chuàng)新很關(guān)鍵

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說