丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給郭思
發(fā)送

0

IEEE Fellow 張磊:普及大模型,手機端的創(chuàng)新很關(guān)鍵

本文作者: 郭思 2023-09-25 11:00
導(dǎo)語:大模型規(guī)模化部署的關(guān)鍵與難點是什么?

IEEE Fellow 張磊:普及大模型,手機端的創(chuàng)新很關(guān)鍵

2022年底以來,以ChatGPT為代表的大模型集中爆發(fā),實現(xiàn)了從無到有,從0到1的跨越。

而經(jīng)過近一年的發(fā)展,算力資源吃緊,成本居高不下,數(shù)據(jù)隱私泄露等問題導(dǎo)致行業(yè)開始迷茫,大模型接下來從1到10甚至到100的規(guī)?;渴鹚坪踹€很遙遠。

各家普遍認識到,AI要想走進千家萬戶,就不能僅僅是一個停留在網(wǎng)頁里面的助手,而應(yīng)擁有改變現(xiàn)實世界的四肢。

這個四肢,便是眾多廠商都在紛紛發(fā)力的端側(cè)AI。(關(guān)于端側(cè)AI的進展與觀察,歡迎添加本文作者郭思微信:lionceau2046, 互通有無。)

5月份,Google推出了可以在旗艦手機上離線運行的PaLM2 輕量版Gecko,高通則在6月發(fā)布了《混合AI是AI的未來》白皮書;備受矚目的meta Llama 2可通過陳天奇MLC-LLM在本地進行部署。

針對這一現(xiàn)象,2023年9月,AI科技評論與香港理工大學(xué)講座教授、IEEE Fellow 張磊展開了一場對話。

在張磊看來, ChatGPT出現(xiàn)之后大語言模型還會繼續(xù)快速發(fā)展,通用大模型的發(fā)展更多取決于多模態(tài)的對齊研究;但大模型在端側(cè)芯片上的運行有極大挑戰(zhàn),終端側(cè)的創(chuàng)新可能會成為未來生成式AI能否成功普及的關(guān)鍵。

2006年,張磊入職香港理工大學(xué)擔任助理教授,17年成為該校的講座教授直至如今。學(xué)術(shù)研究上,張磊長期致力于計算機視覺、圖像處理、模式識別等方向的研究,是底層視覺方面的國際權(quán)威學(xué)者。他同時擔任著IEEE Trans. on Image Processing (TIP)的高級編委,IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI)、SIAM Journal of Imaging Sciences等多個國際期刊的編委。從2015年至2023年,張磊連續(xù)被評為 Clarivate Analytics Highly Cited Researcher (全球高引用學(xué)者,論文在學(xué)科領(lǐng)域引用量排名前1%)。

2018年,張磊投身產(chǎn)業(yè)界,加入達摩院(P11),2021年底他離開達摩院。其后加入OPPO研究院,致力于以AI算法加持影像,打造更極致的手機拍照體驗。

他經(jīng)歷了15、16年人工智能發(fā)展浪潮,是眾多投身于工業(yè)界的人工智能學(xué)者之一,也是同時感受到2022年底大模型火爆與消費電子寒冬兩波浪潮的科學(xué)家,對于大模型的落地有著自己的思考。

以下是張磊和 AI 科技評論的對話實錄,含其主要觀點,經(jīng) AI 科技評論節(jié)選整理如下:

AI+影像是高端手機競爭的熱點


AI 科技評論:您的研究主要是底層視覺相關(guān)嗎?

張磊:計算機視覺可以簡單劃分為上層視覺、中層視覺和底層視覺。

上層視覺是關(guān)于「看明白」的事情,包括物體檢測、圖像識別、圖像理解等等;中層視覺是將輸入圖像轉(zhuǎn)換成中等抽象的表示,用以判斷每個像素或區(qū)域的屬性,包括圖像分割、深度圖估計等;而底層視覺則更多是關(guān)于「看清楚」的事情,包括圖像超分、去噪、去模糊、去霧、去雨、暗光增強等。

用個淺顯的例子便是,如果有一張狗的圖片,將一張模糊的狗的圖片細節(jié)變得更加清晰的過程是底層視覺,而識別圖片里面有一只狗這件事情是上層視覺,將狗和背景區(qū)域分割開來則是中層視覺。

我本人在底層視覺的研究時間最長,但其實目前我團隊的研究不限于底層視覺,涵蓋了中層以及上層視覺的內(nèi)容,也包含一些神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的基礎(chǔ)研究。

AI 科技評論:深度學(xué)習(xí)的浪潮對您產(chǎn)生了哪些具體的影響?

張磊:前期我的研究方向較多關(guān)注在底層視覺,相對而言,深度學(xué)習(xí)沖擊底層視覺的時間比上層視覺本來就慢了幾年。2014年,深度學(xué)習(xí)圖像超分辨率開山之作SRCNN剛剛被提出,但并沒有體現(xiàn)出比傳統(tǒng)算法太多的優(yōu)勢。

另一方面,由于我所帶領(lǐng)的團隊在以稀疏表示、低帙表達等技術(shù)做圖像復(fù)原方面達到一個較高的水準,我當時并不認為深度學(xué)習(xí)會超越這些方法。2014年,我的博士生顧舒航在國際計算機視覺和模式識別大會(CVPR 2014)上發(fā)表的加權(quán)核范數(shù)最小化(WNNM)的方法,將傳統(tǒng)去噪算法的效果推進到了一個新高度,成為傳統(tǒng)非深度學(xué)習(xí)算法的一個標桿,這讓我對更加堅定了自己的看法,覺得至少在底層視覺領(lǐng)域,或許我們可以和深度學(xué)習(xí)抗衡。但后面,我的態(tài)度發(fā)生了轉(zhuǎn)變。

AI 科技評論:什么事情使您改變了對深度學(xué)習(xí)的看法?

張磊:對于深度學(xué)習(xí), 我經(jīng)歷了從被動接受到主動擁抱的過程。我此前用的方法比如稀疏表示和低帙表達等,都具備一些理論上完備的框架,也比較符合我的思維習(xí)慣,很長一段時間里我認為深度學(xué)習(xí)在做分類、檢測等方面,確實很有效,但不一定能沖擊底層視覺,但事實證明我錯了。

16年,我的博士生張凱,十分興奮地跑過來和我說:張老師,我用殘差網(wǎng)絡(luò)做了圖像去噪,比WNNM還要好很多。我有點吃驚,說實話,當時有些難以接受。

后來我進行了反思,在深度學(xué)習(xí)的時代,確實研究的方法和形式和以往發(fā)生了深刻的變化,不管你是否情愿。就深度學(xué)習(xí)的研究而言,年輕人更有優(yōu)勢,他們沒有過多條條框框,敢想、敢做,很多我認為不可思議的事情都發(fā)生了。我們這一代,雖然還沒有成為過去式,但應(yīng)該多向年輕人學(xué)習(xí),很多時候,學(xué)生是我們的老師,他們更有創(chuàng)意。

AI 科技評論:當時候發(fā)布的Beyond a Gaussian denoiser: Residual learning of deep CNN for image denoising是不是與此相關(guān)?

張磊:張凱的那個工作就是后來發(fā)表的“Beyond a Gaussian denoiser: Residual learning of deep CNN for image denoising”(DnCNN),目前被引用6700多次,在底層視覺領(lǐng)域算是很高的。這個工作證明了residual learning(殘差學(xué)習(xí))和batch normalization(批量歸一化)在圖像復(fù)原中相輔相成的作用,可以在較深的網(wǎng)絡(luò)的條件下,帶來快的收斂和好的性能。

雖然DnCNN主要是探討高斯去噪問題,用單模型應(yīng)對不同強度的高斯噪聲;但其也可以用單模型應(yīng)對超分辨率、JPEG去塊效應(yīng)等其它底層視覺問題,是一個較為通用的框架。

這算是我團隊第一篇真正意義上關(guān)于深度學(xué)習(xí)的文章。

AI 科技評論:在現(xiàn)在手機的高端化之爭中,折疊屏與影像功能已經(jīng)成為兩大破局點,您覺得AI加持影像功能,是否會成為智能手機下一個技術(shù)爆發(fā)點?

張磊:AI 拍照功能,其實在五六年之前就已經(jīng)在部分手機使用了,現(xiàn)在已經(jīng)十分普及。但用 AI 來輔助手機拍照,依然存在很多解決不了的場景,尤其是在一些極端情況下。

在端側(cè)用生成式模型來解決拍照的問題,其實是我個人的一個目標,現(xiàn)在還處于一個初級階段。什么時候能夠做成功不敢說,但在拍照這個具體的方向里面,這肯定是 AI 加持手機的一個重要爆點。

AI 科技評論: 生成式模型拍照和普通的拍照帶給用戶最直觀的區(qū)別是什么?

張磊:生成式模型拍照和普通拍照一個比較大的區(qū)別,在于我們現(xiàn)在的普通拍照方式,有很多場景還是會拍糊,比如光線很暗的時候,背光的時候,有物體運動的時候,或者距離較遠,我們還是會出現(xiàn)畫質(zhì)不清的情況,為了得到一張效果理想的照片,我們可能會需要進行大量的后期處理。

但是這樣的處理方式有一個上限,有些問題可能還是無法完全解決。但是生成式模型通過大數(shù)據(jù)學(xué)習(xí)獲取到了強大的高質(zhì)量自然圖像的先驗,可以去拿來去補足這些缺陷。所以我個人感覺用生成式模型輔助拍照,可能會對拍照的畫質(zhì)以及適用泛化性,都有很大的提升。

泛化性可以理解為,無論在什么條件下,我們都能拍出一張很好的照片。簡而言之,我覺得生成式AI是有這個潛力的,但能不能做得出來的話,那就考驗包括我在內(nèi)的很多同行的努力了。


跨學(xué)科研究對 AGI 至關(guān)重要


AI 科技評論:您以香港理工大學(xué)講座教授的身份跨入業(yè)界,以學(xué)術(shù)研究和工業(yè)界兩種視角來看待AI的發(fā)展,有哪些異同?

張磊:16 年之后有好多高校的教授到工業(yè)界發(fā)展,后來也回來了很多,這種現(xiàn)象其實能夠反映很多的問題。

以前在學(xué)術(shù)界做論文、做研究其實挺舒服的,去工業(yè)界未必會能夠帶來多大的收益。16 年深度學(xué)習(xí)火了以后,在計算機視覺,包括最近在自然語言處理方面,都帶來了非常顯著的效果,比其他的方法要明顯很多,不是一個量級,所以這波浪潮就給了高校的很多教授一個信心進入工業(yè)界。我 18 年去阿里達摩院,也是受到這波浪潮的影響。

但是投入工業(yè)界不代表一定能取得成功,高校有明確的定位,屬于偏純研究性質(zhì)的機構(gòu),是以產(chǎn)生新知識為導(dǎo)向,但工業(yè)界是需要解決實際問題,產(chǎn)生生產(chǎn)力并帶來實際價值的。如果踏入工業(yè)界是想在工業(yè)界的研究院里邊繼續(xù)做高校發(fā)論文的事情,這個心態(tài)就很容易出問題。

有意思的是在 AI 發(fā)展到大模型的時代,往往主導(dǎo)的都不是高校,而是一些工業(yè)界頭部廠商的研究機構(gòu)。工業(yè)界它又有資源又有人才,并且這些人才不比學(xué)術(shù)界里面的差,這對于高校老師來說其實也是一件很有危機感的事情。

我對學(xué)術(shù)研究有極大的興趣,絕對不會放棄這件事情,而同時跨界在工業(yè)界,我有一個強烈的愿望,自己做了這么多年的底層視覺,要能夠?qū)⒖蒲谐晒趯嶋H場景里去使用。這對我是一個很大的挑戰(zhàn),也是我的使命,這可能也是我們這批人共同的想法,只是每個人的實施路徑不一樣。

AI 科技評論: 產(chǎn)業(yè)現(xiàn)在出現(xiàn)了百模大戰(zhàn),您如何評價這個現(xiàn)象?

張磊:大模型火爆至今,行業(yè)內(nèi)出現(xiàn)了百模大戰(zhàn), 投融資消息也層出不窮。表面上好像是很多投資的錢被燒掉了,但我覺得這些投資人和投資機構(gòu)其實很偉大,雖然自己暫時耗掉了一些財富,但為整個人類科技的發(fā)展做出了很大貢獻,讓大家看到了AI技術(shù)發(fā)展帶來的巨大威力。即使Open AI不掙錢哪怕最后倒閉了,它對整個科技史做出的巨大貢獻也會永載史冊。

AI 科技評論:通用視覺大模型是共識,您怎樣看待這個趨勢?

張磊:簡單來講就把語言跟視覺信息,甚至其它模態(tài)的信息,都對齊融合了。我覺得這個路肯定還是要走一段時間,不會那么快就徹底解決。

視覺大模型相對于大語言模型,稍微復(fù)雜一些。但是目前分割大模型,比如SAM,也已經(jīng)是做得很不錯了,至少給大家看到在特定的視覺任務(wù)里,能夠把很多不同的子任務(wù)統(tǒng)一到一個模型里,做到通用。在圖像生成方面,Midjourney和Stable Diffusion都給了人很驚艷的效果,大大促進了整個行業(yè)的發(fā)展。但是他們的可控性、穩(wěn)定性各個方面其實還是改進的空間,需要不斷的去往前迭代,當然這其實也涉及一個多模態(tài)發(fā)展配齊的問題。(本文作者:郭思,微信lionceau2046,長期關(guān)注大模型行業(yè)動態(tài),歡迎交個朋友、互通有無。)

AI 科技評論:怎么理解多模態(tài)發(fā)展對齊?

張磊:其實一個人從小到大的成長過程里面,一直都是多模態(tài)地感知這個世界的,但凡你缺少任何一個感知器官,比如說如果你看不見,那你肯定無法很好地理解這個世界,聽不見也是一樣的。

少一個維度,對于很多事情我們都無法做到完整的理解?,F(xiàn)在大模型的發(fā)展,語言跟視覺是兩個最關(guān)鍵、最核心的模態(tài)。但是也不排除有其它一些模態(tài)的結(jié)合,包括觸覺和嗅覺信息等維度。即使是語言和視覺本身,都可以細分出很多子模態(tài)需要對齊,提升感知和理解能力。

只有等這些維度都能夠互相之間去對齊融合,才能有更大的可能性。

就比如人腦,肯定也是在做類似的事情,你接受信息的模態(tài)越多,并都能對齊拉通的時候,你對于整個世界的理解才能更全面,這是一個很自然的事情。

但至于這個人的大腦機制到底是怎么運轉(zhuǎn)的,就需要很多的生物學(xué)家以及心理學(xué)家去進行研究,這些跨學(xué)科的研究對于AI的發(fā)展肯定是大有益處的,但進展可能就沒有那么快了。


端側(cè) AI 是大勢所趨


AI科技評論:2022年是消費電子的寒冬期,如今似乎也沒有好轉(zhuǎn),大模型時代,您認為手機廠商會往哪個方向發(fā)展?

張磊:因為全球經(jīng)濟形勢的關(guān)系,手機銷量下滑,并且低谷可能還需要幾年時間才能過去,但這并不是代表著說大家不用手機了,只是換機的時候要多考慮考慮腰包的問題。AI在手機拍照里應(yīng)用已經(jīng)五六年了,目前大模型來了以后,在手機里進行落地應(yīng)用,也是一個必然的趨勢。

AI科技評論:能否聊聊您所看到的端側(cè)AI的進展?

張磊:學(xué)術(shù)界的研究顯示Stable Diffusion這種文生圖的大模型在高通的平臺上,5-8 秒左右可以生成一個 512 * 512的圖片。但其實已經(jīng)有論文驗證在蘋果的芯片上 2 秒就完成了,因為蘋果是自研芯片,內(nèi)存比較大。最近又有論文,把生成式模型的多階段采樣蒸餾為一步完成,勢必又可以加大不少生成模型端側(cè)落地的可行性。我長期接觸手機拍照的研發(fā),發(fā)現(xiàn)一個學(xué)術(shù)界經(jīng)常忽略的問題,再強大的算法如果遇到功耗的瓶頸,也會巧婦難為無米之炊,大模型在端側(cè)落地最大的挑戰(zhàn)還是在于功耗的把控。

AI科技評論:除此之外, 端側(cè)AI落地還有哪樣的難點?

張磊:我們拿大語言模型(LLM)做例子,LLM通常包含數(shù)十億或數(shù)百億的參數(shù),其輸入的序列長度是動態(tài)變化的,在端側(cè)我們往往只能用CPU或GPU來優(yōu)化,但CPU或GPU功耗相對較高。如果我們想使用功耗低很多的NPU來優(yōu)化,往往只能固定序列長度,這就會導(dǎo)致模型效果的損失。因此,目前只能在功耗和效果之間做痛苦的權(quán)衡。

同時,這些模型在運行時需要大量的內(nèi)存來存儲模型參數(shù)和臨時數(shù)據(jù),而手機芯片通常具有有限的內(nèi)存資源。而一旦涉及芯片硬件平臺的升級,周期就會變得漫長,隨隨便便就得一兩年。這也成為了大模型在手機端運行的一個卡點。

AI科技評論:您覺得未來端側(cè)AI會呈現(xiàn)哪樣的發(fā)展態(tài)勢?

張磊:我覺得可能會有兩條線。一個就是純端側(cè),數(shù)據(jù)不出手機。如果是這個方向,就需要考慮對于芯片和算法的訴求是什么,估計可能幾年之內(nèi)就有產(chǎn)品出來,說不定比我想的還要快。第二,現(xiàn)在很多互聯(lián)網(wǎng)廠包括終端廠商,特別強調(diào)端云協(xié)同,發(fā)揮云端的算力,同時端側(cè)也可以做一些相應(yīng)的事情,將安全性風(fēng)險降到最低,協(xié)同效應(yīng)達到大化。

AI科技評論:您怎樣看待一體機的發(fā)展?

張磊:我對于一體機沒多大感知,但是對于家庭用機器人這種產(chǎn)品形態(tài)很看好。

中國人特別重視子女教育,同時老齡化問題又那么嚴重,這是一個值得去思考的問題。家用機器人一旦有很強的通用AI能力,就可以解決一些小孩的教育以及老人的陪護問題,成本也可以做得很低。

用戶在家里如果有各種問題,可以用語音或其它方式與機器人交互,每個家庭都可以擁有一臺甚至多臺機器人,做為在家里可以移動的助手。這個事情一定會在將來的某個時刻發(fā)生,成本也可以做得很低,用戶幾千塊錢就可以擁有,和手機價格差不多。當然你不要讓這種機器人去做一些炒菜搬運的工作,更多的是充當智能助手和陪伴的角色。

雷峰網(wǎng) 雷峰網(wǎng) 雷峰網(wǎng)(公眾號:雷峰網(wǎng))



雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

IEEE Fellow 張磊:普及大模型,手機端的創(chuàng)新很關(guān)鍵

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說