0
本文作者: 黃楠 | 2023-08-02 10:45 |
《流浪地球》里被視為“叛軍”的 MOSS,是為火種計(jì)劃量身打造的數(shù)字生命。它很聰明,有超越人類道德、哲學(xué)、科學(xué)、藝術(shù)等知識(shí)的能力,能在最短時(shí)間內(nèi)得出最優(yōu)解、做出“最正確”的決定,是趨于完美的智慧體。
如今大模型之于技術(shù)變革,為“行業(yè)”和“領(lǐng)域”在有限范圍內(nèi)落地,提供了近乎絕對(duì)的可能性,在新的AI商業(yè)化敘事里,人們或主動(dòng)、或被動(dòng)地加入資源競(jìng)賽狂潮中。
讓人類永遠(yuǎn)保持理智,是一種奢求。正如 MOSS 前的人類文明,經(jīng)歷了一次次毀滅、又迎來浴火重生的涅槃史,我們也亟需從大模型落地的狂歡中回歸技術(shù)理性。
身處這場(chǎng)軍備競(jìng)賽中的特斯聯(lián) CTO 華先勝,也給出了自己關(guān)于大模型的冷靜思考與破局答案,以下是華先勝和 AI 科技評(píng)論的對(duì)話實(shí)錄,經(jīng) AI 科技評(píng)論節(jié)選整理如下:
觀點(diǎn)一:大模型不是智能涌現(xiàn)的終點(diǎn)
在大模型“智能涌現(xiàn)”之后短短一年,物理世界與信息的生產(chǎn)方式發(fā)生革命性變化,映射到更廣泛的城市空間,也必然帶來新一輪的革新。對(duì)此,華先勝在對(duì)話AI科技評(píng)論時(shí)直言,“雖然大模型的確取得了很大的進(jìn)展,但不要迷信大模型,它有它的局限?!?/strong>
據(jù)華先勝回憶,去年 ChatGPT 出來之后,他非常地關(guān)注并且第一時(shí)間去試用了。不可否認(rèn)的是,它確實(shí)是一個(gè)巨大的突破,一方面,驚嘆它能力的大幅度提升,但坦白講,也發(fā)現(xiàn)它不如我們想象般的強(qiáng)大,哪怕是稍微深入一些的問題,它的表現(xiàn)都不夠好。
“過去深度學(xué)習(xí)剛誕生時(shí),大家也覺得它可以解決一切問題,可以用足夠復(fù)雜的模型和足夠多的數(shù)據(jù)去建立現(xiàn)實(shí)世界各種問題的模型。但在實(shí)戰(zhàn)中,其實(shí)需要深入行業(yè)才能真正解決問題。今天的大模型并沒有改變這一規(guī)律,仍然需要深入領(lǐng)域去了解對(duì)應(yīng)的流程、數(shù)據(jù)等,才能解決行業(yè)的問題。”華先勝提到。
今天,在特斯聯(lián)的超級(jí)智慧園區(qū)里,軟體機(jī)器人成為大模型時(shí)代 MOSS 般的存在。它隱身于園區(qū)的各大屏幕里,對(duì)園區(qū)所有的事情了如指掌,你可以向它問路、獲取需要的信息,也可以使用它執(zhí)行操作。人與機(jī)器共存的背后,是大模型與 IoT 硬件通過語(yǔ)義對(duì)齊,實(shí)現(xiàn)人、物聯(lián)網(wǎng)設(shè)備和城市之間的高度智能化,這與特斯聯(lián)一貫以來堅(jiān)持城域 AIoT 領(lǐng)域?yàn)榧夹g(shù)核心的戰(zhàn)略非常吻合。
那么,當(dāng) AIoT 遇見大模型,將會(huì)碰撞出怎樣的火花呢?華先勝給出了他的思考:AI 是 AIoT 的靈魂, IoT 是它的感知和控制,像它的“手腳”,當(dāng)然也包括為其提供“身體”的物理基礎(chǔ),也即算力資源。
LLM(大語(yǔ)言模型)的出現(xiàn),推動(dòng) AI 能力向更通用的目標(biāo)邁進(jìn)了一步:首先,大語(yǔ)言模型可以直接作為 AIoT 系統(tǒng)的交互界面。其次,AIoT 數(shù)據(jù)天生就是多模態(tài)的,多模態(tài)大模型有望解決過去很多需要通過 “AI + 規(guī)則”來解決的問題。
在華先勝眼中,目前提到 AIoT 大模型,主要有兩條路線:
第一種是將過去 AI 所做的事情用大模型進(jìn)行升級(jí)、再做一遍,這是大部分人的做法;
第二種是真正意義上大規(guī)模的 AIoT 大模型,將 AIoT 里的多模態(tài)異構(gòu)數(shù)據(jù)真正使用起來,放入大模型當(dāng)中去。
“不過,這種真正意義上的AIoT大模型未來也可能會(huì)很快出現(xiàn),也可能需要很長(zhǎng)時(shí)間?!比A先勝說。
現(xiàn)階段 AIoT 行業(yè)里所使用的大模型、仍處于他認(rèn)為的第一種技術(shù)路線,也即基于語(yǔ)言或語(yǔ)言加視覺的“偽”AIoT 大模型。在“偽”AIoT 大模型出現(xiàn)前,AIoT 設(shè)備之間的連接和協(xié)同完全基于人類專家預(yù)定義的規(guī)則,這些規(guī)則是固定的、不完備的和不自我進(jìn)化的,不一定能直接理解和遵循人類指令。但有了大模型后,根據(jù)高度多樣的 Context(任意季節(jié)、時(shí)間、人物、指令等),我們可以自動(dòng)地、動(dòng)態(tài)地構(gòu)建物體間連接和協(xié)同規(guī)則,提供自適應(yīng)的、多樣的、深入的、融合人類指令的智能場(chǎng)景體驗(yàn)。
華先勝在訪談中表示,“無論哪條路線,眼下特別典型的全域 AIoT 大模型還沒有出現(xiàn)?!?/p>
觀點(diǎn)二:立體感知,精準(zhǔn)控制——釋放 AIoT 大模型的洪荒之力
真正的AIoT大模型應(yīng)該具備什么能力呢?華先勝認(rèn)為,AIoT 與其他行業(yè)有兩大差異。首先是異構(gòu)數(shù)據(jù)多,大量的傳感器收集了天氣、溫度、濕度、電量、降水量等各種各樣的數(shù)據(jù),信息更豐富;其次,IoT 設(shè)備不只是感知設(shè)備,還可以反向控制環(huán)境。更豐富的感知維度,更強(qiáng)大的行動(dòng)力,這是 AIoT 大模型所應(yīng)該具備的。
回到場(chǎng)景下去賦能 AIoT 領(lǐng)域,僅依靠一個(gè)通用的、又有很多局限的大模型是很難實(shí)現(xiàn)。因此,AIoT 大模型還要滿足幾個(gè)特性:
第一,專業(yè)性。它一定是專業(yè)的,能夠解決領(lǐng)域內(nèi)更專業(yè)的相關(guān)問題。今天的大模型看上去很厲害,但并不具備足夠的領(lǐng)域?qū)I(yè)信息,無法在園區(qū)里真正使用。
第二,可靠性。模型對(duì)所關(guān)注的場(chǎng)景要非常了解,一方面通過引入新知識(shí)讓它懂得足夠多;其次,還需要一些約束的方法讓輸出結(jié)果高度可靠,不出現(xiàn)“一本正經(jīng)胡說八道”的“幻覺”。
第三,性能和成本的平衡。從訓(xùn)練成本出發(fā),一個(gè)特別大的通用模型不是一個(gè)常規(guī)創(chuàng)業(yè)公司所能承受的;其次在推理時(shí),如果用戶量或訪問量過大,也會(huì)導(dǎo)致大模型服務(wù)撐不住。因此,簡(jiǎn)化模型是一個(gè)好的選擇。我們不需要它是一個(gè)百事通,只要能解決我所關(guān)注的問題,且具備一定的常識(shí)就可以了。
第四,系統(tǒng)打通。這個(gè)大模型不只有知識(shí),更要同園區(qū)的系統(tǒng)深度耦合,以獲取實(shí)時(shí)信息,還能在被授權(quán)的前提下去實(shí)時(shí)地反控園區(qū)。
當(dāng)提及近期備受關(guān)注的具身智能技術(shù),華先勝在訪談中提及:我們提出的AIoT大模型,是現(xiàn)有大模型技術(shù)的具身化。AIoT 設(shè)備既是我們的眼睛和耳朵,也是我們的手和腳。目前,我們更多地聚焦于交互和場(chǎng)景聯(lián)動(dòng),后面我們也會(huì)將感知和控制也替換成大模型。特別是,我們的超級(jí) IoT 設(shè)備和機(jī)器人,在無縫聯(lián)合的服務(wù)器端能力(物聯(lián)網(wǎng)和大模型)和機(jī)器人側(cè)能力(感知、規(guī)劃、行動(dòng)和交互)的支持下,本身就是具身智能的體現(xiàn),只不過特斯聯(lián)的機(jī)器人具身智能是“機(jī)境協(xié)同”的具身智能,不只是機(jī)器人本身的直接能力。
觀點(diǎn)三:落地之難——AIoT 大模型的多模態(tài)挑戰(zhàn)
關(guān)于 AIoT 大模型落地的難點(diǎn),華先勝認(rèn)為,其難點(diǎn)主要有幾個(gè)方面,除了滿足上述提到的專業(yè)性、可靠性、性能和成本的平衡、以及系統(tǒng)打通外,落地對(duì)實(shí)時(shí)性要求也會(huì)高很多,因?yàn)樗且粋€(gè)真正在 working 的 AIoT 系統(tǒng);此外,它在能力上的演化,不僅是大模型自身的更新,還涉及數(shù)據(jù)積累、記憶迭代等??偟膩碚f,AIoT 大模型落地最大的難點(diǎn)在于多模態(tài)。
長(zhǎng)期來看,將 IoT 數(shù)據(jù)統(tǒng)一融入 AIoT 大模型中是有可能的,也許是以文本/圖片為中心、其他 IoT 數(shù)據(jù)和中心對(duì)齊的方式,這是需要的。但由于AIoT 數(shù)據(jù)的異構(gòu)和多模態(tài),將不同類型的數(shù)據(jù)整合和有效地利用,需要克服數(shù)據(jù)表示和對(duì)齊的挑戰(zhàn)。
首先,在數(shù)據(jù)表示上,各類傳感器數(shù)據(jù)應(yīng)該以何種形式建模,是參考文本作為序列輸入、還是參考圖像作為矩陣輸入、還是一種新的建模形式?對(duì)此,目前無論是學(xué)術(shù)界和工業(yè)界都暫無定論。
此外,在數(shù)據(jù)對(duì)齊上,語(yǔ)言模型從語(yǔ)言中學(xué)習(xí)、又生成語(yǔ)言,這是人類能理解的,而AIoT領(lǐng)域有很多沒有標(biāo)簽和信息標(biāo)注的數(shù)據(jù),其本身的上下文也大多不具備顯性的語(yǔ)義,無法將語(yǔ)義與數(shù)據(jù)進(jìn)行對(duì)應(yīng),這使得它生成的數(shù)據(jù)、信息無法被理解,需要再加工建立 AIoT 數(shù)據(jù)和自然語(yǔ)言的語(yǔ)義對(duì)齊,才能賦予這些數(shù)據(jù)以意義。
觀點(diǎn)四:大模型不是 AGI 唯一途徑,「模型+系統(tǒng)」才是正解
面對(duì) AIoT 等各個(gè)領(lǐng)域 A I落地面臨的困境,如何實(shí)現(xiàn)真正意義上的AGI?華先勝認(rèn)為目前有三條可能的路徑:
第一條路徑是大模型持續(xù)演化和進(jìn)步,不斷地增大模型的規(guī)模、增加數(shù)據(jù)的量和模態(tài)來產(chǎn)生一個(gè)超級(jí)大模型以實(shí)現(xiàn) AGI。
第二條路徑是顛覆當(dāng)前的連接主義,研究新的模型框架使得更接近于人腦或人心的工作模式,在低功耗的前提下,具備強(qiáng)大的分析、推理、發(fā)現(xiàn)和創(chuàng)新的能力。
第三條路就是我們所提出來的「模型+系統(tǒng)」的方法;不同于第一條路以大模型系統(tǒng)為核心,這里所講的系統(tǒng)更廣泛,有大小模型的融合和演化,有模型與規(guī)則的融合,有規(guī)則和模型的相互轉(zhuǎn)化,等等。通過系統(tǒng)和模型融合的方法,我們會(huì)構(gòu)建一個(gè)更復(fù)雜的、可以不斷自我成長(zhǎng)的智能體。
華先勝以 AIoT 領(lǐng)域?yàn)槔颖硎?,大語(yǔ)言模型本身是 AIoT 的擴(kuò)充,將大語(yǔ)言模型作為一個(gè)具有強(qiáng)大理解能力的“大腦”,再通過系統(tǒng)連接 AIoT 設(shè)備來給它配上“眼睛”、“鼻子”、“耳朵”、“手”和“腳”,使其具備多元的感知、分析、決策和控制能力,從而實(shí)現(xiàn)更強(qiáng)的智能。當(dāng)「模型+系統(tǒng)」使用得越來越多,積累了更多數(shù)據(jù),才有可能真正實(shí)現(xiàn)多模態(tài)、異構(gòu)數(shù)據(jù)的“大一統(tǒng)”AIoT 大模型。
(雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng))
相關(guān)文章:
對(duì)話京東何曉冬:「多模態(tài)大模型」涌現(xiàn)之前,要先回答三個(gè)問題
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。