丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給劉路遙
發(fā)送

0

多模態(tài)AI技術(shù)「涌現(xiàn)」,AI公司的「新機(jī)會(huì)」

本文作者: 劉路遙 2023-04-19 14:20
導(dǎo)語(yǔ):多模態(tài)成為趨勢(shì),但距離進(jìn)入產(chǎn)業(yè)還有幾道彎?

ChatGPT-4的橫空出世,讓AI行業(yè)再一次柳暗花明。

某AI企業(yè)人士如此評(píng)價(jià)GPT-4的進(jìn)步:“GPT-3或3.5像一個(gè)六年級(jí)學(xué)生,而GPT-4像一個(gè)聰明的十年級(jí)學(xué)生?!?/p>

即將畢業(yè)的小學(xué)生與新晉高中生的思維差距,既體現(xiàn)在涉獵知識(shí)的廣度上,也體現(xiàn)在獨(dú)立思考的深度上。

GPT-4為代表的AI智力上的提升,直觀表現(xiàn)為,從實(shí)現(xiàn)單調(diào)的文本交互,轉(zhuǎn)變?yōu)榭梢越邮軋D像、文本作為輸入,并表現(xiàn)出更人性化的交互能力。

這種處理多種類型信息的能力,被稱為“多模態(tài)”技術(shù)。

接下來(lái),掌握了多模態(tài)AI技術(shù)秘鑰的公司,將可以進(jìn)一步拓展下游新興領(lǐng)域,改變傳統(tǒng)AI定制化的特點(diǎn),向通用化方向發(fā)展。

整個(gè)產(chǎn)業(yè)也將在更加多樣化的場(chǎng)景應(yīng)用,以及產(chǎn)業(yè)鏈條的進(jìn)一步集成融合中,迎來(lái)規(guī)?;纳?jí)。

從簡(jiǎn)單的人臉識(shí)別、文字語(yǔ)音識(shí)別,上升到理解人的行為意圖,像人一樣懂得察言觀色,以人類復(fù)雜性作為參考的人工智能與人類的差距之一,就是多模態(tài)信息的智能化理解。

如果說(shuō),人工智能的終極目的是讓AI基于對(duì)環(huán)境的感知采取合理行動(dòng),從而幫助人類獲得最大收益;那么,在更多復(fù)雜場(chǎng)景對(duì) AI 技術(shù)的應(yīng)用效果提出更高要求的當(dāng)下,多模態(tài)儼然成為 AI 產(chǎn)業(yè)突圍的重點(diǎn)方向。

AI的未來(lái)范式:多模態(tài)

多模態(tài)并非新概念,早在2018年,“多模態(tài)”作為AI未來(lái)的一個(gè)發(fā)展方向,已開始成為業(yè)界研究的重點(diǎn)。

什么叫“多模態(tài)”?

“模態(tài)”一詞最早是一個(gè)生物學(xué)概念,以人類為例,觸覺(jué),聽(tīng)覺(jué),視覺(jué),嗅覺(jué)、味覺(jué),都是一種模態(tài)。從人工智能和計(jì)算機(jī)視覺(jué)的角度來(lái)說(shuō),模態(tài)就是感官數(shù)據(jù)。

簡(jiǎn)單理解,多模態(tài)AI=多種數(shù)據(jù)類型+多種智能處理算法。

以往單模態(tài)、單任務(wù)的人工智能技術(shù),局限于 AI 模型與數(shù)據(jù)之間的交互,通過(guò)讓AI學(xué)習(xí)互聯(lián)網(wǎng)上的海量文本、圖片等不同模態(tài)的數(shù)據(jù),尋找其內(nèi)在規(guī)律,但在算力、數(shù)據(jù)資源的限制下,僅依賴互聯(lián)網(wǎng)上數(shù)據(jù)學(xué)習(xí)很大可能會(huì)達(dá)到瓶頸。

多模態(tài)AI技術(shù),為AI能力的提升,提供了一個(gè)解法,即讓人工智能自主學(xué)習(xí)并不斷迭代新的知識(shí)。

之所以能做到這一點(diǎn),是因?yàn)槎嗄B(tài)AI技術(shù),是一種交互式的 AI 技術(shù),突破了以往單一的模型與數(shù)據(jù)的交互,可以實(shí)現(xiàn)模型與模型、模型與人類、模型與環(huán)境等多種交互。

舉例來(lái)說(shuō),現(xiàn)在很火的AIGC,可以通過(guò)文本生成圖像甚至視頻,就是多模態(tài)AI的一個(gè)典型應(yīng)用。

但多模態(tài)AI的想象力,遠(yuǎn)不止于此。

從技術(shù)的創(chuàng)新上來(lái)看,模態(tài)不僅包括最常見(jiàn)的圖像、文本、視頻、音頻數(shù)據(jù),還包括無(wú)線電信息、光電傳感器、壓觸傳感器等更多可能性。

不同模態(tài)都有各自擅長(zhǎng)的事情,這些數(shù)據(jù)之間的有效融合,不僅可以實(shí)現(xiàn)比單個(gè)模態(tài)更好的效果,還可以做到單個(gè)模態(tài)無(wú)法完成的事情。

多模態(tài)AI的設(shè)計(jì)和應(yīng)用體現(xiàn)一個(gè)詞:以人為中心。

當(dāng)AI同時(shí)處理多個(gè)模態(tài)的數(shù)據(jù)時(shí),其感知方式會(huì)更貼近人類,從而讓機(jī)器更加全面、準(zhǔn)確地理解人類的真實(shí)指令和意圖,比如能夠理解人類交流中細(xì)微差別的系統(tǒng),具有高度關(guān)懷感和真實(shí)感的虛擬助手等,實(shí)現(xiàn)的是一種高度自然的人機(jī)交互和協(xié)同。

雖然AI在多模態(tài)方面取得了突破,但這種技術(shù)及其應(yīng)用還不成熟,由多模態(tài)AI帶來(lái)的產(chǎn)業(yè)規(guī)模升級(jí),還面臨重重阻礙。

多模態(tài)AI的兩大挑戰(zhàn):技術(shù)、產(chǎn)業(yè)鏈

多模態(tài)AI探索的是人類行動(dòng)和感知背后的關(guān)系,其蘊(yùn)含的想象力與應(yīng)用潛能毋庸置疑。

但圍繞搜索和生成兩項(xiàng)基本任務(wù),多模態(tài)AI的訓(xùn)練還存在諸多難點(diǎn),如多模態(tài)數(shù)據(jù)的收集、新的模型和架構(gòu)的搭建、高效的數(shù)據(jù)融合等問(wèn)題。

首先,多模態(tài)的數(shù)據(jù)收集、對(duì)齊和標(biāo)注,復(fù)雜且不易完成。

一方面,優(yōu)質(zhì)的多模態(tài)數(shù)據(jù)規(guī)模還不夠大;另一方面,在具體的業(yè)務(wù)場(chǎng)景中,很難同時(shí)滿足所有的模態(tài)數(shù)據(jù)的收集。

共達(dá)地對(duì)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))表示:“視覺(jué)(圖像/視頻)和文本的數(shù)據(jù)可以根據(jù)語(yǔ)義描述來(lái)對(duì)齊,但需要經(jīng)過(guò)精心的標(biāo)注。同樣,其它模態(tài)的對(duì)齊也面臨類似的問(wèn)題,需要考慮如何對(duì)齊?!?/p>

其次,不同模態(tài)具有不同的數(shù)據(jù)特性,多模態(tài)AI的訓(xùn)練,需要根據(jù)不同模態(tài)的特性,開發(fā)新的模型和架構(gòu)。

構(gòu)建統(tǒng)一、跨場(chǎng)景、多任務(wù)的多模態(tài)基礎(chǔ)預(yù)訓(xùn)練模型,包含兩個(gè)問(wèn)題:

如何在統(tǒng)一的預(yù)訓(xùn)練模型中,處理視覺(jué) (圖片、視頻、3D 圖像) 三種模態(tài)的輸入, 并將其映射到統(tǒng)一的特征空間的問(wèn)題。 


如何采用統(tǒng)一的模型和訓(xùn)練框架,分別訓(xùn)練文本、圖像、語(yǔ)音的預(yù)訓(xùn)練模型的問(wèn)題。

此外,開發(fā)能夠大幅降低AI模型訓(xùn)練門檻,簡(jiǎn)化部署流程,讓不具備AI專業(yè)知識(shí)的人員也能生產(chǎn)算法的平臺(tái)也十分重要。

再者,讓不同模態(tài)的數(shù)據(jù)有效融合以指導(dǎo)決策,也并非易事。

大模型中有非常多隱性的知識(shí),對(duì)這些知識(shí)的優(yōu)化、迭代是一大挑戰(zhàn)。

多模態(tài)AI需要處理的數(shù)據(jù)和參數(shù)十分海量,如何利用并行計(jì)算和分布式計(jì)算等技術(shù)來(lái)提高計(jì)算效率,也是多模態(tài)人工智能技術(shù)需要解決的難點(diǎn)之一。

此外,中科搖櫓船認(rèn)為,“如何在多模態(tài)AI的下游任務(wù)中進(jìn)行自監(jiān)督學(xué)習(xí)也是一大難點(diǎn)?!?/p>

也就是說(shuō),如何通過(guò)構(gòu)建自監(jiān)督的任務(wù),提高多模態(tài)模型的表征能力,緩解缺少大規(guī)模監(jiān)督數(shù)據(jù)的挑戰(zhàn)。

多模態(tài)AI最終是為了實(shí)現(xiàn)高質(zhì)量的內(nèi)容生成,背后需要參數(shù)規(guī)模巨大的模型以及海量數(shù)據(jù)集作為支撐。AIoT場(chǎng)景下,AI應(yīng)用對(duì)于端云互動(dòng)有著更強(qiáng)的需求。

這意味著,在硬件和芯片上,也提出了更高的要求。

硬件方面,由于要匯聚多種數(shù)據(jù)分析,行業(yè)對(duì)前端硬件種類和數(shù)量的需求會(huì)更大,如視覺(jué)、聲音等不同模態(tài)的數(shù)據(jù),都需要不同的設(shè)備去采集。

芯片方面,相比于單模態(tài),多模態(tài)需要的是龐大的“人工智能算力網(wǎng)絡(luò)”,單純的語(yǔ)音芯片、視覺(jué)芯片等已很難滿足多模態(tài)AI算法的需求。

云天勵(lì)飛對(duì)雷峰網(wǎng)表示,從支持大規(guī)模并行計(jì)算的角度出發(fā),芯片要能夠同時(shí)處理多個(gè)任務(wù)和數(shù)據(jù)流,計(jì)算效率和本地存儲(chǔ)能力需要進(jìn)一步提升;從支持多模態(tài)AI長(zhǎng)時(shí)間運(yùn)行的角度出發(fā),芯片還要能夠維持較低的功耗,如通過(guò)提高單芯片計(jì)算能力,降低系統(tǒng)的復(fù)雜度和總成本。

目前,transformer是處理多模態(tài)比較常用的技術(shù),共達(dá)地李思晉也認(rèn)為,“當(dāng)前的芯片,transformer的計(jì)算并不高效,如果沒(méi)有專用的硬件,或者為transformer定制開發(fā),其計(jì)算效率比其它模型結(jié)構(gòu)可能慢一個(gè)數(shù)量級(jí)。”

AI公司如何尋找商業(yè)化的落腳點(diǎn)?

經(jīng)過(guò)模型參數(shù)與數(shù)據(jù)規(guī)模的比拼階段后,搭載在攝像頭、邊緣計(jì)算盒子、機(jī)器人等智能設(shè)備中的多模態(tài)AI正走向場(chǎng)景應(yīng)用。

目前已知的是,多模態(tài)AI首先在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理等領(lǐng)域獲得驗(yàn)證。

OpenAI 的 DALL-E模型,可以從文本描述中生成對(duì)應(yīng)圖像;谷歌的多任務(wù)統(tǒng)一模型MUM,可以做到從 75 種不同語(yǔ)言中挖掘上下文信息來(lái)提高搜索體驗(yàn);英偉達(dá)的GauGAN2 模型,可以根據(jù)簡(jiǎn)單的文本輸入生成照片般逼真的圖像。

多模態(tài)大模型時(shí)代,AI應(yīng)用也正走向產(chǎn)業(yè)縱深處。

工業(yè)場(chǎng)景中,運(yùn)用多模態(tài)的智能化管理系統(tǒng),正在走進(jìn)工廠和車間。

以中科搖櫓船的AGV調(diào)度管理系統(tǒng)為例,通過(guò)將雷達(dá)圖像處理、視覺(jué)圖像處理等圖像處理技術(shù)集成在同一產(chǎn)品中,可以輕松完成車輛、交通、調(diào)度、運(yùn)行、叫料、通信、統(tǒng)計(jì)等管理工作。相比于人力,這種智能化的管理,更能滿足當(dāng)下制造業(yè)客戶的柔性定制需求。

在城市治理場(chǎng)景中,多模態(tài)AI技術(shù)可以運(yùn)用在巡檢機(jī)器人上。當(dāng)前的巡檢機(jī)器人可以通過(guò)“眼睛”識(shí)別占道經(jīng)營(yíng)、垃圾桶滿溢等問(wèn)題,并對(duì)相關(guān)情況進(jìn)行提醒,但大多沒(méi)有“耳朵”。

相關(guān)研究表明,人類獲取的信息中的25%,都是通過(guò)聽(tīng)覺(jué)實(shí)現(xiàn)的。對(duì)于巡檢機(jī)器人來(lái)說(shuō),沒(méi)有耳朵,意味著難以監(jiān)測(cè)到環(huán)境中的異常響動(dòng)。

云天勵(lì)飛表示,未來(lái)將研發(fā)下一代高效多模信息感知引擎,在原有的視頻結(jié)構(gòu)化技術(shù)基礎(chǔ)上結(jié)合三維場(chǎng)景信息、音頻信息等其他模態(tài)信息,提升傳感器信息流中語(yǔ)義和非語(yǔ)義信息的結(jié)構(gòu)化密度,從而為相關(guān)產(chǎn)品及服務(wù)在更多應(yīng)用場(chǎng)景的落地提供算法技術(shù)支持。

但客觀來(lái)看,在視覺(jué)和聽(tīng)覺(jué)之外,能夠商業(yè)化落地的多模態(tài)技術(shù)還很少,大多處于研究階段。

多模態(tài)AI之路不好走,高度智能的人機(jī)交互道阻且長(zhǎng),主要表現(xiàn)為:

一、 AI 的理解和執(zhí)行還不夠可控、可信賴、可復(fù)制。

比如,多樣化風(fēng)險(xiǎn)和AI偏見(jiàn)風(fēng)險(xiǎn),當(dāng)數(shù)據(jù)不具有廣泛代表性時(shí),算法就會(huì)出現(xiàn)偏差,偏差的不斷被放大,(后果)

二、算法開發(fā)成本較高,產(chǎn)品不具性價(jià)比,市場(chǎng)和客戶不愿意買單。

多模態(tài)AI的應(yīng)用落地,需要大量專業(yè)的研究人員,包括算法架構(gòu)師或AI開發(fā)者,也包括產(chǎn)業(yè)專家。而這兩類專家關(guān)注點(diǎn)的相對(duì)獨(dú)立,又往往進(jìn)一步增加研發(fā)和落地過(guò)程中的成本。

此外,多模態(tài)AI的應(yīng)用需要不同類型的數(shù)據(jù)、知識(shí)、產(chǎn)品等,其落地需要產(chǎn)業(yè)鏈整體加強(qiáng)協(xié)作和溝通,從核心的AI芯片,到物聯(lián)網(wǎng)硬件,再到軟件算法開發(fā),時(shí)間周期長(zhǎng),需要協(xié)調(diào)各方利益。

三、業(yè)務(wù)場(chǎng)景較少,且業(yè)務(wù)場(chǎng)景的定義還不夠清晰。

多模態(tài)AI產(chǎn)品和方案,需要根據(jù)實(shí)際需求針對(duì)性開發(fā),什么場(chǎng)景需要使用哪幾個(gè)模態(tài),以及從成本和收益上來(lái)看,是否有商業(yè)價(jià)值,都需要進(jìn)行前置考慮。

AI能力想要進(jìn)入實(shí)體產(chǎn)業(yè),尤其是工業(yè)屬性相對(duì)較強(qiáng)的產(chǎn)業(yè),需要從方方面面的復(fù)雜細(xì)節(jié)中進(jìn)入,而答案都掌握在Know-How手中。

“與行業(yè)領(lǐng)域具備know-how的公司進(jìn)行合作,降低場(chǎng)景驗(yàn)證的成本,是AI公司的機(jī)會(huì)點(diǎn)?!崩钏紩x表示。

多模態(tài)技術(shù)是個(gè)硬骨頭,更加類人的智能需要AI公司投入大量的研發(fā);其背后需要的大模型和海量數(shù)據(jù),同時(shí)對(duì)產(chǎn)業(yè)鏈上的硬件和芯片廠商提出了更高的要求;業(yè)務(wù)場(chǎng)景的探索尚處迷霧之中;市場(chǎng)的接受度也還不盡人意。

但從好的一面看,無(wú)論是最近大火的AIGC,還是在國(guó)內(nèi)默默壯大的多模態(tài)人工智能產(chǎn)業(yè)聯(lián)合體,都說(shuō)明AI將不斷朝著多模態(tài)方向發(fā)展,以更為廣泛的感知能力,進(jìn)一步向產(chǎn)業(yè)落地。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

多模態(tài)AI技術(shù)「涌現(xiàn)」,AI公司的「新機(jī)會(huì)」

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)