0
作者:郭思
編輯:陳彩嫻
ChatGPT之前,國內(nèi)最近一次的AI熱潮是以“AI四小龍”的發(fā)展為代表,但這些公司燒錢程度與落地產(chǎn)出的不匹配,令市場倍感失望。
時間來到2023年, 在ChatGPT 出來之后,市場再度火熱,視覺大模型公司也如雨后春筍般不斷涌現(xiàn),據(jù)不完全數(shù)據(jù)統(tǒng)計,市面上現(xiàn)有的視覺大模型公司共有三十余家。淘金者前仆后繼,但相同的問題卻仍然存在。
部分入局者好大喜功,產(chǎn)品未經(jīng)雕琢就推上市,拉高用戶期待值,結(jié)果在真正使用過程中,卻漏洞百出。
要想讓用戶對視覺大模型的聲音從嘆氣變?yōu)闅g呼,似乎需要一場新的革命。
2023年,10月9日,美圖公司舉辦15周年生日會并發(fā)布自研AI視覺大模型MiracleVision(奇想智能)3.0版本。面世100天后,美圖AI視覺大模型MiracleVision3.0將全面應(yīng)用于美圖旗下影像與設(shè)計產(chǎn)品,并將助力電商、廣告、游戲、動漫、影視五大行業(yè)。
在生日會現(xiàn)場,美圖CEO吳欣鴻不僅向與會者展示了美圖視覺大模型MiracleVision(奇想智能)3.0版本的效果,也對產(chǎn)品和整個行業(yè)給出了自己的思考和見解。
「現(xiàn)如今視覺大模型普遍在生成效果上、結(jié)果可控性以及適用范圍上還有很多待解決的問題。比如說對于成熟的大中型企業(yè),他們對效果的精度要求很高。當(dāng)前,大部分視覺大模型的生成效果與設(shè)計師的標(biāo)準(zhǔn)存在一定差距,甚至不少設(shè)計師會覺得AI味很重,一看就是生成的,很沒誠意?!?/p>
市面上的大部分視覺大模型都在卷數(shù)據(jù)量和參數(shù)量。但美圖認(rèn)為,衡量能力的標(biāo)準(zhǔn)并非在追求參數(shù)指標(biāo),而是要抓住應(yīng)用場景的核心需求,并且在商業(yè)模式上得到驗證。
意簡言賅,美圖想做的,是一個離用戶更近的大模型。
大模型熱度毋庸置疑,針對大模型產(chǎn)品發(fā)布的評測榜單也五花八門。
甚至有行業(yè)人士曾經(jīng)就表示,現(xiàn)在市面上大家能看到的很多榜單數(shù)據(jù)背后很有可能是各家公司在前期調(diào)整過,刷榜現(xiàn)象是行業(yè)共識。
不顧實際效果的刷榜帶來的弊端十分明顯,這就像一個平日在學(xué)校只會迎合學(xué)校標(biāo)準(zhǔn),而忽視了自己能力的「好學(xué)生」在基準(zhǔn)測試時高分通過,表現(xiàn)優(yōu)異,但實際應(yīng)用中卻還會犯一些非?;A(chǔ)的錯誤。
要想防止這種現(xiàn)象的頻繁發(fā)生,或許確得從根源思考,在評判標(biāo)準(zhǔn)上下功夫。
究竟什么樣的視覺大模型才是好用的?以什么樣的標(biāo)準(zhǔn)來評價?
美圖給出的答案是,榜單說的不算,吳欣鴻說的不算,只有設(shè)計師和用戶說好用,才是真正好用的大模型。
帶著這樣的理念,美圖視覺大模型最大的不同便是整個研發(fā)團隊由設(shè)計師主導(dǎo)。
美團視覺大模型負(fù)責(zé)人是設(shè)計師許俊,對于大模型效果的呈現(xiàn)有沒有在領(lǐng)域取得應(yīng)用,作為設(shè)計師的他,標(biāo)準(zhǔn)非常高。
而對于整個美圖團隊而言,一切指令都以設(shè)計師的意見為先,當(dāng)設(shè)計師說可以上,美圖視覺大模型就上,設(shè)計師說不能上,團隊就會繼續(xù)進行調(diào)整。加上設(shè)計師自己得時刻使用,對于模型實際體驗感肯定是最在意之人。
「他天天用我們的模型,我們的生成架構(gòu)敢不快嗎?天天催?!?/p>
作為一家以美為基因的公司,美圖在美學(xué)上與用戶產(chǎn)生的深厚鏈接,足以讓美圖視覺大模型團隊以用戶體驗作為第一出發(fā),進行大模型的評估,從而反推技術(shù)上的研發(fā)。
從實際效果上來說,在發(fā)布會現(xiàn)場,我們通過各類效果的對比,著實看到了美圖視覺大模型3.0的強大實力。
圖片由MiracleVision3.0生成,關(guān)鍵詞:新聞現(xiàn)場,1記者,專注的眼神,城市街道,高清分辨率,科技感,現(xiàn)代,自然光,金屬質(zhì)地
以應(yīng)用場景為例,身處傳媒行業(yè)或者廣告行業(yè)的小伙伴,都有過熬夜拼趕,花費巨大心力的設(shè)計稿發(fā)給「甲方爸爸」,卻因?qū)Ψ揭粋€NO字,需要重新進行返工重做的經(jīng)歷。
這其實和傳統(tǒng)的設(shè)計工作模式相關(guān),一個設(shè)計師,在創(chuàng)意腦暴后,尋找情緒版給甲方參考,確認(rèn)后再由設(shè)計師進行具體設(shè)計,中間需要與甲方反復(fù)溝通確認(rèn),最終交付作品,耗時耗力。
傳統(tǒng)的設(shè)計工作流,在創(chuàng)意腦暴后,尋找情緒版給甲方參考,確認(rèn)后再由設(shè)計師進行具體設(shè)計,當(dāng)然這中間需要與甲方反復(fù)溝通確認(rèn),最終交付作品。
美圖視覺大模型的出現(xiàn),帶來了AI原生工作流。在創(chuàng)意腦暴后,AI能快速生成各種創(chuàng)意視覺供甲方確認(rèn),在確定最終創(chuàng)意后,再交由設(shè)計師與AI協(xié)同進行創(chuàng)意細(xì)化,很快能完成作品交付。
在具體的功能上,美圖將自研AI視覺大模型MiracleVision(奇想智能)的核心能力拆解為“奇思妙想”和“智能創(chuàng)作”兩大特性。
「奇思妙想」主要聚焦于輔助用戶提供創(chuàng)意方面,當(dāng)用戶輸入關(guān)鍵詞,MiracleVision可自動補充相關(guān)表述,如光影效果、質(zhì)感、風(fēng)格、圖片質(zhì)量等,讓即使沒有那么多年美術(shù)功底的普通用戶也能一鍵生成大片。
當(dāng)然,如果用戶有更專業(yè)的需求,通過MiracleVision的「提示詞精準(zhǔn)控制」功能也可以輕松實現(xiàn)「近景」、「遠景」、「順光」、「逆光」等生成效果。
在「智能創(chuàng)作」層面,MiracleVision通過「深化創(chuàng)作」功能,可以進一步豐富作品細(xì)節(jié)和提升表現(xiàn)力。通過「AI畫面擴展」功能讓作品尺寸更大、細(xì)節(jié)更豐富。通過「局部修改」功能,對部分畫面進行精準(zhǔn)修改與調(diào)整。通過「分辨率提升」功能生成高清大圖,讓細(xì)節(jié)表現(xiàn)、色彩展示、物體辨識更加的精準(zhǔn)和生動。
MiracleVision將落地電商、廣告、游戲、動漫、影視五大行業(yè),希望能幫助五大行業(yè)「工作流提效」。
算力和數(shù)據(jù)、算法是大模型行業(yè)的三駕馬車。
盡管老生常談,但是這三個方面的基本功,卻決定著大模型能否走得扎實且長遠。
美圖2015年成立了美圖影像研究院(MT Lab),從那時起,便致力于影像技術(shù)的研發(fā)與探索。在算法方面,美圖影像實驗室擁有在近十年的經(jīng)驗積累。
在算力方面,美圖聯(lián)合廠商合作,擁有雄厚的算力資源。在數(shù)據(jù)方面,美圖有專業(yè)的設(shè)計師標(biāo)準(zhǔn)的數(shù)據(jù),數(shù)據(jù)集比較高質(zhì)量。其次是有標(biāo)注,除了設(shè)計師還有一些美院合作的專業(yè)人士幫我們標(biāo)注,還有藝術(shù)家們幫助審核。
在三個月前,MiracleVision繪畫水平在前三個月其實還停留在一個初級階段,如今的3.0版本已經(jīng)能描繪出真實細(xì)膩的畫面細(xì)節(jié)。
而從6月份美圖視覺大模型1.0發(fā)布到如今3.0上新,中間的每一步,美圖都有著自己的考量。
從0到1階段,美圖考慮更多的是如何搭建這個平臺,而在1.0版本發(fā)布后。高質(zhì)量的數(shù)據(jù)集變成了美圖的關(guān)注重點。數(shù)據(jù)怎么來,質(zhì)量怎么保證?
美圖的做法是,既然針對的是美學(xué)領(lǐng)域的視覺大模型,那集思廣益,采集最專業(yè)的數(shù)據(jù),邀請外部設(shè)計師包括藝術(shù)院校的老師和學(xué)生一起去構(gòu)建比較高質(zhì)量的數(shù)據(jù)集,從而使得美圖在美學(xué)上達到比較好的狀態(tài)。
如今美圖視覺大模型3.0發(fā)布,如何保證效果的卓越?
第一點便是模型的可控性。不管是在細(xì)節(jié)的控制還是在局部的編輯都能達到用戶想要的效果,在模型的技術(shù)層面能達到一個很好的實現(xiàn)。
通用領(lǐng)域可控,那么一些十分專業(yè)的垂直領(lǐng)域,是否也同樣可控呢?
這一點也是美圖花費了大量心力去完善的地方,美圖視覺大模型3.0十分注重垂直領(lǐng)域的效果精致度。
美圖在發(fā)布會上坦言,如果做通用視覺大模型,把全網(wǎng)的各種圖片進行訓(xùn)練,然后生成圖片,這個事情很好做。
但難的是細(xì)分到各個場景里,這些圖片不一定能用,比如電商細(xì)分下去分為特別多的品類,鞋子分運動鞋、帆布鞋、拖鞋。美圖技術(shù)團隊對各個垂直領(lǐng)域效果進行訓(xùn)練、生成、調(diào)試,最后才得以在各個領(lǐng)域產(chǎn)生生產(chǎn)力。
擁有深厚美學(xué)功底的美圖呈現(xiàn)給大家的是非常文藝的文科生形象,但對產(chǎn)品精雕細(xì)琢,不斷內(nèi)省的理科生思維,夯實了美圖的技術(shù)底座,也讓美圖的視覺大模型之路走得更加長遠。
視覺模型新一輪增長飛輪背后
新一輪AI大模型浪潮中,每個公司都想分一份羹,但對于視覺這個專精深領(lǐng)域,卻并不是所有公司都可以hold得住 。
什么樣的公司做視覺大模型會有優(yōu)勢?
對于這個問題的答案,很多人第一反應(yīng)很可能是擁有深厚學(xué)術(shù)背景的技術(shù)團隊。
但在美圖發(fā)布會現(xiàn)場,我們得到了一個全新的答案。
最懂視覺,與用戶打交道的公司做視覺大模型的優(yōu)勢不可忽視。
大模型創(chuàng)業(yè)九死一生,巨大的成本投入是一方面,另一方面,沒有實際的應(yīng)用場景也是創(chuàng)業(yè)成功道路上的攔路虎。再好的技術(shù)也得先活下來才有話語權(quán)。
大半年過去了,大模型浪潮大浪淘沙之下,存活下來的模型創(chuàng)意公司非常之少。最后只剩下比較成熟或者中型的公司存在,因為創(chuàng)業(yè)很關(guān)鍵的一點是做模型給誰用,給別人用的前提是中間要有一個應(yīng)用層作為輔助和支撐。沒有這些,那么創(chuàng)業(yè)團隊需要從0開始推廣應(yīng)用,如果無法短時間獲得成效,風(fēng)險巨大。
而對于美圖而言,這個問題并不存在。
擁有強大用戶規(guī)模的美圖已經(jīng)擁有了現(xiàn)成的應(yīng)用場景。模型研發(fā)-發(fā)布-應(yīng)用-用戶反饋-調(diào)整,閉環(huán)已經(jīng)形成。
「我們所謂的增長飛輪,能夠越推越好,這個是非常關(guān)鍵的,也是美圖過去15年的厚積薄發(fā)在大模型時代的體現(xiàn)?!?/p>
對于美圖視覺大模型3.0,美圖團隊給予它的期待是在可控性上持續(xù)發(fā)力。
而看向更長遠的未來,在吳欣鴻看來,視覺大模型應(yīng)用普及將經(jīng)歷三個階段:2024年之前為探索期,2024-2025年為高速發(fā)展期,2026-2030年為成熟期,隨著視覺大模型在生產(chǎn)端的應(yīng)用走向成熟,視覺大模型將助力千萬設(shè)計場景,引領(lǐng)美學(xué)的升級與社會經(jīng)濟增長。
在這股競爭之潮中,當(dāng)被問及深耕視覺領(lǐng)域的美圖對自己的角色定位是什么時,吳欣鴻面帶微笑,目光一如15年創(chuàng)立美圖之初那般堅定,緩緩答道:
「相比起在同業(yè)競爭里面獲得多大的地位,我們更加注重用戶體驗,以及自身能力的不斷提升,即使是對標(biāo)也是去對標(biāo)我們認(rèn)為全球最領(lǐng)先的產(chǎn)品,我們要一點點去接近乃至超越,因為對我們來說,視覺大模型的競爭才剛開始,做,是第一要義?!?/p>
雷峰網(wǎng) 雷峰網(wǎng) 雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。