IEEE Fellow 張磊：普及大模型，手機(jī)端的創(chuàng)新很關(guān)鍵

本文作者：郭思

2023-09-25 11:00

導(dǎo)語：大模型規(guī)?；渴鸬年P(guān)鍵與難點(diǎn)是什么？

2022年底以來，以ChatGPT為代表的大模型集中爆發(fā)，實(shí)現(xiàn)了從無到有，從0到1的跨越。

而經(jīng)過近一年的發(fā)展，算力資源吃緊，成本居高不下，數(shù)據(jù)隱私泄露等問題導(dǎo)致行業(yè)開始迷茫，大模型接下來從1到10甚至到100的規(guī)模化部署似乎還很遙遠(yuǎn)。

各家普遍認(rèn)識(shí)到，AI要想走進(jìn)千家萬戶，就不能僅僅是一個(gè)停留在網(wǎng)頁里面的助手，而應(yīng)擁有改變現(xiàn)實(shí)世界的四肢。

這個(gè)四肢，便是眾多廠商都在紛紛發(fā)力的端側(cè)AI。（關(guān)于端側(cè)AI的進(jìn)展與觀察，歡迎添加本文作者郭思微信：lionceau2046，互通有無。）

5月份，Google推出了可以在旗艦手機(jī)上離線運(yùn)行的PaLM2 輕量版Gecko，高通則在6月發(fā)布了《混合AI是AI的未來》白皮書；備受矚目的meta Llama 2可通過陳天奇MLC-LLM在本地進(jìn)行部署。

針對(duì)這一現(xiàn)象，2023年9月，AI科技評(píng)論與香港理工大學(xué)講座教授、IEEE Fellow 張磊展開了一場(chǎng)對(duì)話。

在張磊看來， ChatGPT出現(xiàn)之后大語言模型還會(huì)繼續(xù)快速發(fā)展，通用大模型的發(fā)展更多取決于多模態(tài)的對(duì)齊研究；但大模型在端側(cè)芯片上的運(yùn)行有極大挑戰(zhàn)，終端側(cè)的創(chuàng)新可能會(huì)成為未來生成式AI能否成功普及的關(guān)鍵。

2006年，張磊入職香港理工大學(xué)擔(dān)任助理教授，17年成為該校的講座教授直至如今。學(xué)術(shù)研究上，張磊長(zhǎng)期致力于計(jì)算機(jī)視覺、圖像處理、模式識(shí)別等方向的研究，是底層視覺方面的國際權(quán)威學(xué)者。他同時(shí)擔(dān)任著IEEE Trans. on Image Processing (TIP)的高級(jí)編委，IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI)、SIAM Journal of Imaging Sciences等多個(gè)國際期刊的編委。從2015年至2023年，張磊連續(xù)被評(píng)為 Clarivate Analytics Highly Cited Researcher （全球高引用學(xué)者，論文在學(xué)科領(lǐng)域引用量排名前1%）。

2018年，張磊投身產(chǎn)業(yè)界，加入達(dá)摩院（P11），2021年底他離開達(dá)摩院。其后加入OPPO研究院，致力于以AI算法加持影像，打造更極致的手機(jī)拍照體驗(yàn)。

他經(jīng)歷了15、16年人工智能發(fā)展浪潮，是眾多投身于工業(yè)界的人工智能學(xué)者之一，也是同時(shí)感受到2022年底大模型火爆與消費(fèi)電子寒冬兩波浪潮的科學(xué)家，對(duì)于大模型的落地有著自己的思考。

以下是張磊和 AI 科技評(píng)論的對(duì)話實(shí)錄，含其主要觀點(diǎn)，經(jīng) AI 科技評(píng)論節(jié)選整理如下：

AI+影像是高端手機(jī)競(jìng)爭(zhēng)的熱點(diǎn)

AI 科技評(píng)論：您的研究主要是底層視覺相關(guān)嗎？

張磊：計(jì)算機(jī)視覺可以簡(jiǎn)單劃分為上層視覺、中層視覺和底層視覺。

上層視覺是關(guān)于「看明白」的事情，包括物體檢測(cè)、圖像識(shí)別、圖像理解等等；中層視覺是將輸入圖像轉(zhuǎn)換成中等抽象的表示，用以判斷每個(gè)像素或區(qū)域的屬性，包括圖像分割、深度圖估計(jì)等；而底層視覺則更多是關(guān)于「看清楚」的事情，包括圖像超分、去噪、去模糊、去霧、去雨、暗光增強(qiáng)等。

用個(gè)淺顯的例子便是，如果有一張狗的圖片，將一張模糊的狗的圖片細(xì)節(jié)變得更加清晰的過程是底層視覺，而識(shí)別圖片里面有一只狗這件事情是上層視覺，將狗和背景區(qū)域分割開來則是中層視覺。

我本人在底層視覺的研究時(shí)間最長(zhǎng)，但其實(shí)目前我團(tuán)隊(duì)的研究不限于底層視覺，涵蓋了中層以及上層視覺的內(nèi)容，也包含一些神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的基礎(chǔ)研究。

AI 科技評(píng)論：深度學(xué)習(xí)的浪潮對(duì)您產(chǎn)生了哪些具體的影響？

張磊：前期我的研究方向較多關(guān)注在底層視覺，相對(duì)而言，深度學(xué)習(xí)沖擊底層視覺的時(shí)間比上層視覺本來就慢了幾年。2014年，深度學(xué)習(xí)圖像超分辨率開山之作SRCNN剛剛被提出，但并沒有體現(xiàn)出比傳統(tǒng)算法太多的優(yōu)勢(shì)。

另一方面，由于我所帶領(lǐng)的團(tuán)隊(duì)在以稀疏表示、低帙表達(dá)等技術(shù)做圖像復(fù)原方面達(dá)到一個(gè)較高的水準(zhǔn)，我當(dāng)時(shí)并不認(rèn)為深度學(xué)習(xí)會(huì)超越這些方法。2014年，我的博士生顧舒航在國際計(jì)算機(jī)視覺和模式識(shí)別大會(huì)（CVPR 2014）上發(fā)表的加權(quán)核范數(shù)最小化（WNNM）的方法，將傳統(tǒng)去噪算法的效果推進(jìn)到了一個(gè)新高度，成為傳統(tǒng)非深度學(xué)習(xí)算法的一個(gè)標(biāo)桿，這讓我對(duì)更加堅(jiān)定了自己的看法，覺得至少在底層視覺領(lǐng)域，或許我們可以和深度學(xué)習(xí)抗衡。但后面，我的態(tài)度發(fā)生了轉(zhuǎn)變。

AI 科技評(píng)論：什么事情使您改變了對(duì)深度學(xué)習(xí)的看法？

張磊：對(duì)于深度學(xué)習(xí)，我經(jīng)歷了從被動(dòng)接受到主動(dòng)擁抱的過程。我此前用的方法比如稀疏表示和低帙表達(dá)等，都具備一些理論上完備的框架，也比較符合我的思維習(xí)慣，很長(zhǎng)一段時(shí)間里我認(rèn)為深度學(xué)習(xí)在做分類、檢測(cè)等方面，確實(shí)很有效，但不一定能沖擊底層視覺，但事實(shí)證明我錯(cuò)了。

16年，我的博士生張凱，十分興奮地跑過來和我說：張老師，我用殘差網(wǎng)絡(luò)做了圖像去噪，比WNNM還要好很多。我有點(diǎn)吃驚，說實(shí)話，當(dāng)時(shí)有些難以接受。

后來我進(jìn)行了反思，在深度學(xué)習(xí)的時(shí)代，確實(shí)研究的方法和形式和以往發(fā)生了深刻的變化，不管你是否情愿。就深度學(xué)習(xí)的研究而言，年輕人更有優(yōu)勢(shì)，他們沒有過多條條框框，敢想、敢做，很多我認(rèn)為不可思議的事情都發(fā)生了。我們這一代，雖然還沒有成為過去式，但應(yīng)該多向年輕人學(xué)習(xí)，很多時(shí)候，學(xué)生是我們的老師，他們更有創(chuàng)意。

AI 科技評(píng)論：當(dāng)時(shí)候發(fā)布的Beyond a Gaussian denoiser: Residual learning of deep CNN for image denoising是不是與此相關(guān)？

張磊：張凱的那個(gè)工作就是后來發(fā)表的“Beyond a Gaussian denoiser: Residual learning of deep CNN for image denoising”（DnCNN），目前被引用6700多次，在底層視覺領(lǐng)域算是很高的。這個(gè)工作證明了residual learning（殘差學(xué)習(xí)）和batch normalization（批量歸一化）在圖像復(fù)原中相輔相成的作用，可以在較深的網(wǎng)絡(luò)的條件下，帶來快的收斂和好的性能。

雖然DnCNN主要是探討高斯去噪問題，用單模型應(yīng)對(duì)不同強(qiáng)度的高斯噪聲；但其也可以用單模型應(yīng)對(duì)超分辨率、JPEG去塊效應(yīng)等其它底層視覺問題，是一個(gè)較為通用的框架。

這算是我團(tuán)隊(duì)第一篇真正意義上關(guān)于深度學(xué)習(xí)的文章。

AI 科技評(píng)論:在現(xiàn)在手機(jī)的高端化之爭(zhēng)中，折疊屏與影像功能已經(jīng)成為兩大破局點(diǎn)，您覺得AI加持影像功能，是否會(huì)成為智能手機(jī)下一個(gè)技術(shù)爆發(fā)點(diǎn)？

張磊：AI 拍照功能，其實(shí)在五六年之前就已經(jīng)在部分手機(jī)使用了，現(xiàn)在已經(jīng)十分普及。但用 AI 來輔助手機(jī)拍照，依然存在很多解決不了的場(chǎng)景，尤其是在一些極端情況下。

在端側(cè)用生成式模型來解決拍照的問題，其實(shí)是我個(gè)人的一個(gè)目標(biāo)，現(xiàn)在還處于一個(gè)初級(jí)階段。什么時(shí)候能夠做成功不敢說，但在拍照這個(gè)具體的方向里面，這肯定是 AI 加持手機(jī)的一個(gè)重要爆點(diǎn)。

AI 科技評(píng)論: 生成式模型拍照和普通的拍照帶給用戶最直觀的區(qū)別是什么？

張磊：生成式模型拍照和普通拍照一個(gè)比較大的區(qū)別，在于我們現(xiàn)在的普通拍照方式，有很多場(chǎng)景還是會(huì)拍糊，比如光線很暗的時(shí)候，背光的時(shí)候，有物體運(yùn)動(dòng)的時(shí)候，或者距離較遠(yuǎn)，我們還是會(huì)出現(xiàn)畫質(zhì)不清的情況，為了得到一張效果理想的照片，我們可能會(huì)需要進(jìn)行大量的后期處理。

但是這樣的處理方式有一個(gè)上限，有些問題可能還是無法完全解決。但是生成式模型通過大數(shù)據(jù)學(xué)習(xí)獲取到了強(qiáng)大的高質(zhì)量自然圖像的先驗(yàn)，可以去拿來去補(bǔ)足這些缺陷。所以我個(gè)人感覺用生成式模型輔助拍照，可能會(huì)對(duì)拍照的畫質(zhì)以及適用泛化性，都有很大的提升。

泛化性可以理解為，無論在什么條件下，我們都能拍出一張很好的照片。簡(jiǎn)而言之，我覺得生成式AI是有這個(gè)潛力的，但能不能做得出來的話，那就考驗(yàn)包括我在內(nèi)的很多同行的努力了。

跨學(xué)科研究對(duì) AGI 至關(guān)重要

AI 科技評(píng)論：您以香港理工大學(xué)講座教授的身份跨入業(yè)界，以學(xué)術(shù)研究和工業(yè)界兩種視角來看待AI的發(fā)展，有哪些異同？

張磊：16 年之后有好多高校的教授到工業(yè)界發(fā)展，后來也回來了很多，這種現(xiàn)象其實(shí)能夠反映很多的問題。

以前在學(xué)術(shù)界做論文、做研究其實(shí)挺舒服的，去工業(yè)界未必會(huì)能夠帶來多大的收益。16 年深度學(xué)習(xí)火了以后，在計(jì)算機(jī)視覺，包括最近在自然語言處理方面，都帶來了非常顯著的效果，比其他的方法要明顯很多，不是一個(gè)量級(jí)，所以這波浪潮就給了高校的很多教授一個(gè)信心進(jìn)入工業(yè)界。我 18 年去阿里達(dá)摩院，也是受到這波浪潮的影響。

但是投入工業(yè)界不代表一定能取得成功，高校有明確的定位，屬于偏純研究性質(zhì)的機(jī)構(gòu)，是以產(chǎn)生新知識(shí)為導(dǎo)向，但工業(yè)界是需要解決實(shí)際問題，產(chǎn)生生產(chǎn)力并帶來實(shí)際價(jià)值的。如果踏入工業(yè)界是想在工業(yè)界的研究院里邊繼續(xù)做高校發(fā)論文的事情，這個(gè)心態(tài)就很容易出問題。

有意思的是在 AI 發(fā)展到大模型的時(shí)代，往往主導(dǎo)的都不是高校，而是一些工業(yè)界頭部廠商的研究機(jī)構(gòu)。工業(yè)界它又有資源又有人才，并且這些人才不比學(xué)術(shù)界里面的差，這對(duì)于高校老師來說其實(shí)也是一件很有危機(jī)感的事情。

我對(duì)學(xué)術(shù)研究有極大的興趣，絕對(duì)不會(huì)放棄這件事情，而同時(shí)跨界在工業(yè)界，我有一個(gè)強(qiáng)烈的愿望，自己做了這么多年的底層視覺，要能夠?qū)⒖蒲谐晒趯?shí)際場(chǎng)景里去使用。這對(duì)我是一個(gè)很大的挑戰(zhàn)，也是我的使命，這可能也是我們這批人共同的想法，只是每個(gè)人的實(shí)施路徑不一樣。

AI 科技評(píng)論: 產(chǎn)業(yè)現(xiàn)在出現(xiàn)了百模大戰(zhàn)，您如何評(píng)價(jià)這個(gè)現(xiàn)象？

張磊：大模型火爆至今，行業(yè)內(nèi)出現(xiàn)了百模大戰(zhàn)，投融資消息也層出不窮。表面上好像是很多投資的錢被燒掉了，但我覺得這些投資人和投資機(jī)構(gòu)其實(shí)很偉大，雖然自己暫時(shí)耗掉了一些財(cái)富，但為整個(gè)人類科技的發(fā)展做出了很大貢獻(xiàn)，讓大家看到了AI技術(shù)發(fā)展帶來的巨大威力。即使Open AI不掙錢哪怕最后倒閉了，它對(duì)整個(gè)科技史做出的巨大貢獻(xiàn)也會(huì)永載史冊(cè)。

AI 科技評(píng)論：通用視覺大模型是共識(shí)，您怎樣看待這個(gè)趨勢(shì)？

張磊：簡(jiǎn)單來講就把語言跟視覺信息，甚至其它模態(tài)的信息，都對(duì)齊融合了。我覺得這個(gè)路肯定還是要走一段時(shí)間，不會(huì)那么快就徹底解決。

視覺大模型相對(duì)于大語言模型，稍微復(fù)雜一些。但是目前分割大模型，比如SAM，也已經(jīng)是做得很不錯(cuò)了，至少給大家看到在特定的視覺任務(wù)里，能夠把很多不同的子任務(wù)統(tǒng)一到一個(gè)模型里，做到通用。在圖像生成方面，Midjourney和Stable Diffusion都給了人很驚艷的效果，大大促進(jìn)了整個(gè)行業(yè)的發(fā)展。但是他們的可控性、穩(wěn)定性各個(gè)方面其實(shí)還是改進(jìn)的空間，需要不斷的去往前迭代，當(dāng)然這其實(shí)也涉及一個(gè)多模態(tài)發(fā)展配齊的問題。(本文作者：郭思，微信lionceau2046，長(zhǎng)期關(guān)注大模型行業(yè)動(dòng)態(tài)，歡迎交個(gè)朋友、互通有無。)

AI 科技評(píng)論：怎么理解多模態(tài)發(fā)展對(duì)齊？

張磊：其實(shí)一個(gè)人從小到大的成長(zhǎng)過程里面，一直都是多模態(tài)地感知這個(gè)世界的，但凡你缺少任何一個(gè)感知器官，比如說如果你看不見，那你肯定無法很好地理解這個(gè)世界，聽不見也是一樣的。

少一個(gè)維度，對(duì)于很多事情我們都無法做到完整的理解。現(xiàn)在大模型的發(fā)展，語言跟視覺是兩個(gè)最關(guān)鍵、最核心的模態(tài)。但是也不排除有其它一些模態(tài)的結(jié)合，包括觸覺和嗅覺信息等維度。即使是語言和視覺本身，都可以細(xì)分出很多子模態(tài)需要對(duì)齊，提升感知和理解能力。

只有等這些維度都能夠互相之間去對(duì)齊融合，才能有更大的可能性。

就比如人腦，肯定也是在做類似的事情，你接受信息的模態(tài)越多，并都能對(duì)齊拉通的時(shí)候，你對(duì)于整個(gè)世界的理解才能更全面，這是一個(gè)很自然的事情。

但至于這個(gè)人的大腦機(jī)制到底是怎么運(yùn)轉(zhuǎn)的，就需要很多的生物學(xué)家以及心理學(xué)家去進(jìn)行研究，這些跨學(xué)科的研究對(duì)于AI的發(fā)展肯定是大有益處的，但進(jìn)展可能就沒有那么快了。

端側(cè) AI 是大勢(shì)所趨

AI科技評(píng)論：2022年是消費(fèi)電子的寒冬期，如今似乎也沒有好轉(zhuǎn)，大模型時(shí)代，您認(rèn)為手機(jī)廠商會(huì)往哪個(gè)方向發(fā)展？

張磊：因?yàn)槿蚪?jīng)濟(jì)形勢(shì)的關(guān)系，手機(jī)銷量下滑，并且低谷可能還需要幾年時(shí)間才能過去，但這并不是代表著說大家不用手機(jī)了，只是換機(jī)的時(shí)候要多考慮考慮腰包的問題。AI在手機(jī)拍照里應(yīng)用已經(jīng)五六年了，目前大模型來了以后，在手機(jī)里進(jìn)行落地應(yīng)用，也是一個(gè)必然的趨勢(shì)。

AI科技評(píng)論：能否聊聊您所看到的端側(cè)AI的進(jìn)展？

張磊：學(xué)術(shù)界的研究顯示Stable Diffusion這種文生圖的大模型在高通的平臺(tái)上，5-8 秒左右可以生成一個(gè) 512 * 512的圖片。但其實(shí)已經(jīng)有論文驗(yàn)證在蘋果的芯片上 2 秒就完成了，因?yàn)樘O果是自研芯片，內(nèi)存比較大。最近又有論文，把生成式模型的多階段采樣蒸餾為一步完成，勢(shì)必又可以加大不少生成模型端側(cè)落地的可行性。我長(zhǎng)期接觸手機(jī)拍照的研發(fā)，發(fā)現(xiàn)一個(gè)學(xué)術(shù)界經(jīng)常忽略的問題，再強(qiáng)大的算法如果遇到功耗的瓶頸，也會(huì)巧婦難為無米之炊，大模型在端側(cè)落地最大的挑戰(zhàn)還是在于功耗的把控。

AI科技評(píng)論：除此之外，端側(cè)AI落地還有哪樣的難點(diǎn)？

張磊：我們拿大語言模型（LLM）做例子，LLM通常包含數(shù)十億或數(shù)百億的參數(shù)，其輸入的序列長(zhǎng)度是動(dòng)態(tài)變化的，在端側(cè)我們往往只能用CPU或GPU來優(yōu)化，但CPU或GPU功耗相對(duì)較高。如果我們想使用功耗低很多的NPU來優(yōu)化，往往只能固定序列長(zhǎng)度，這就會(huì)導(dǎo)致模型效果的損失。因此，目前只能在功耗和效果之間做痛苦的權(quán)衡。

同時(shí)，這些模型在運(yùn)行時(shí)需要大量的內(nèi)存來存儲(chǔ)模型參數(shù)和臨時(shí)數(shù)據(jù)，而手機(jī)芯片通常具有有限的內(nèi)存資源。而一旦涉及芯片硬件平臺(tái)的升級(jí)，周期就會(huì)變得漫長(zhǎng)，隨隨便便就得一兩年。這也成為了大模型在手機(jī)端運(yùn)行的一個(gè)卡點(diǎn)。

AI科技評(píng)論：您覺得未來端側(cè)AI會(huì)呈現(xiàn)哪樣的發(fā)展態(tài)勢(shì)？

張磊：我覺得可能會(huì)有兩條線。一個(gè)就是純端側(cè)，數(shù)據(jù)不出手機(jī)。如果是這個(gè)方向，就需要考慮對(duì)于芯片和算法的訴求是什么，估計(jì)可能幾年之內(nèi)就有產(chǎn)品出來，說不定比我想的還要快。第二，現(xiàn)在很多互聯(lián)網(wǎng)廠包括終端廠商，特別強(qiáng)調(diào)端云協(xié)同，發(fā)揮云端的算力，同時(shí)端側(cè)也可以做一些相應(yīng)的事情，將安全性風(fēng)險(xiǎn)降到最低，協(xié)同效應(yīng)達(dá)到大化。

AI科技評(píng)論：您怎樣看待一體機(jī)的發(fā)展？

張磊：我對(duì)于一體機(jī)沒多大感知，但是對(duì)于家庭用機(jī)器人這種產(chǎn)品形態(tài)很看好。

中國人特別重視子女教育，同時(shí)老齡化問題又那么嚴(yán)重，這是一個(gè)值得去思考的問題。家用機(jī)器人一旦有很強(qiáng)的通用AI能力，就可以解決一些小孩的教育以及老人的陪護(hù)問題，成本也可以做得很低。

用戶在家里如果有各種問題，可以用語音或其它方式與機(jī)器人交互，每個(gè)家庭都可以擁有一臺(tái)甚至多臺(tái)機(jī)器人，做為在家里可以移動(dòng)的助手。這個(gè)事情一定會(huì)在將來的某個(gè)時(shí)刻發(fā)生，成本也可以做得很低，用戶幾千塊錢就可以擁有，和手機(jī)價(jià)格差不多。當(dāng)然你不要讓這種機(jī)器人去做一些炒菜搬運(yùn)的工作，更多的是充當(dāng)智能助手和陪伴的角色。

雷峰網(wǎng) 雷峰網(wǎng) 雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。