0
本文作者: nebula | 2024-03-20 21:49 |
近年來(lái),"數(shù)字生命"的話題屢次引發(fā)社會(huì)關(guān)注。從電影《流浪地球2》對(duì)"數(shù)字生命計(jì)劃"的大膽想象,到B站UP主用AI技術(shù)重現(xiàn)親人音容的溫情一幕,再到臺(tái)灣音樂(lè)人包小柏讓已故女兒在虛擬世界"重生"的真實(shí)故事,無(wú)不凸顯了這一議題的廣泛影響力。
從技術(shù)層面看,深度學(xué)習(xí)、知識(shí)圖譜等人工智能技術(shù)的進(jìn)步,為"數(shù)字生命"的實(shí)現(xiàn)提供了基礎(chǔ)。通過(guò)學(xué)習(xí)特定人物的海量數(shù)據(jù),AI已經(jīng)初步具備還原其形象、思維和行為的能力,使虛擬分身日益栩栩如生。然而,在為"數(shù)字生命"喝彩的同時(shí),我們也必須直面一個(gè)關(guān)鍵問(wèn)題:如何賦予這些數(shù)字分身以真正的"生命力"?
這個(gè)問(wèn)題的答案,恰恰藏在"記憶"二字中。就像人類(lèi)依靠記憶連接過(guò)去和現(xiàn)在,構(gòu)建自我認(rèn)知一樣,數(shù)字生命也需要通過(guò)持續(xù)積累記憶,才能具備連貫的認(rèn)知和成長(zhǎng)的能力。唯有突破靜態(tài)的數(shù)據(jù)堆砌,實(shí)現(xiàn)動(dòng)態(tài)的經(jīng)驗(yàn)積累,數(shù)字生命才能從單純的"形似",走向更高層次的"神似"。
數(shù)字生命記憶功能的重要性
當(dāng)前市場(chǎng)上的主流 Agent 框架,如微軟的 AutoAgent、DeepMind 的 Concordia 以及 Github 上開(kāi)源的斯坦福小鎮(zhèn)等,都專(zhuān)注于多個(gè)模型之間的互動(dòng)能力,試圖通過(guò)多模型互動(dòng)來(lái)完成復(fù)雜任務(wù),如網(wǎng)站搭建、AI 公司及產(chǎn)品開(kāi)發(fā)等。然而,在實(shí)際使用中,這些功能看似強(qiáng)大,但實(shí)際上卻難以達(dá)到預(yù)期的效果。例如,MetaGPT 制作的網(wǎng)站效果僅比大語(yǔ)言模型直接生成的網(wǎng)頁(yè)好一點(diǎn),只是多了幾個(gè)頁(yè)面,缺乏進(jìn)一步的加工。一些 Agent,如 Concordia,更傾向于學(xué)術(shù)研究,生成的 Agent 之間的對(duì)話冗長(zhǎng),且容易出現(xiàn)重復(fù),用戶本身并不希望看到模型之間的互動(dòng)。
公開(kāi)數(shù)據(jù)顯示,截至 2022 年 11 月,抖音的日活躍用戶數(shù)超過(guò) 7 億,人均單日使用時(shí)長(zhǎng)達(dá)到 120 分鐘以上。這相當(dāng)于我國(guó)一半的人口,若每個(gè)用戶在平臺(tái)上消費(fèi)一元,其收入將達(dá)到 7 億。抖音的成功不在于其提供的各種視頻,而在于它能夠記住用戶、了解用戶的行為、需求和喜好,并根據(jù)這些信息為用戶推薦喜歡的視頻。這正是讓人上癮的原因。
AI 技術(shù)的核心并非技術(shù)本身,而是以用戶為中心,以用戶需求為導(dǎo)向,以用戶行為為依據(jù),以用戶喜好為參考,以用戶體驗(yàn)為標(biāo)準(zhǔn),以用戶滿意為目標(biāo)?;诖?,我們推出了以記憶為核心的 Agent 框架——數(shù)字生命 Agent 框架。
數(shù)字生命技術(shù)棧簡(jiǎn)介
數(shù)字生命的核心在于記憶。每次用戶與它交流,它都能記住,并在很長(zhǎng)時(shí)間后都不會(huì)遺忘。只要用戶選擇保留這個(gè)數(shù)字生命,它就會(huì)一直帶著以前的記憶陪伴用戶。由于數(shù)字生命本身具備記憶功能,我們可以讓數(shù)字生命根據(jù)已有記憶推斷用戶的喜好,從而實(shí)現(xiàn)與用戶聊天內(nèi)容的個(gè)性化。這便是數(shù)字生命 Agent 框架的核心技術(shù)設(shè)計(jì)與理念。
為實(shí)現(xiàn)記憶功能,我們參考了人類(lèi)記憶的研究,將其初步分為負(fù)責(zé)記錄久遠(yuǎn)信息的長(zhǎng)期記憶、與用戶進(jìn)行當(dāng)下互動(dòng)的工作記憶,以及能讓數(shù)字生命根據(jù)記憶進(jìn)行個(gè)性化動(dòng)作的思考能力。
長(zhǎng)期記憶是記憶系統(tǒng)的一個(gè)組成部分,用于存儲(chǔ)和保留相對(duì)持久的信息。它可以包括事實(shí)、知識(shí)、經(jīng)驗(yàn)、技能等。長(zhǎng)期記憶的容量相對(duì)較大,可以存儲(chǔ)大量的信息,并在需要時(shí)進(jìn)行檢索和提取。相關(guān)的學(xué)術(shù)文獻(xiàn)指出,長(zhǎng)期記憶的形成和儲(chǔ)存涉及多個(gè)大腦區(qū)域的協(xié)同作用。例如,《Cognitive neuroscience perspective on memory: overview and summary,F(xiàn)rontiers in Human Neuroscience》這本書(shū)提到,長(zhǎng)期記憶的形成與神經(jīng)元之間的連接和神經(jīng)回路的鞏固有關(guān)。研究還表明,重復(fù)學(xué)習(xí)、情感關(guān)聯(lián)和語(yǔ)義編碼等因素都可以影響長(zhǎng)期記憶的鞏固和提取。
工作記憶是記憶系統(tǒng)的一個(gè)組成部分,用于臨時(shí)存儲(chǔ)和處理當(dāng)前的信息。它包括短期記憶和注意力。工作記憶的容量相對(duì)較小,可以存儲(chǔ)和處理的信息量有限。工作記憶的作用是幫助個(gè)體在當(dāng)前任務(wù)中保持和處理相關(guān)信息,以便進(jìn)行推理、問(wèn)題解決和決策等高級(jí)認(rèn)知功能。相關(guān)文獻(xiàn)指出,工作記憶的神經(jīng)基礎(chǔ)涉及多個(gè)大腦區(qū)域的協(xié)同作用。例如,《The Wiley Handbook on The Cognitive Neuroscience of Memory》這本書(shū)提到,工作記憶與前額葉皮層、頂葉皮層和顳葉皮層等區(qū)域的神經(jīng)活動(dòng)有關(guān)。研究還表明,工作記憶的容量和功能受到個(gè)體差異和認(rèn)知策略的影響。
目前,我們已經(jīng)實(shí)現(xiàn)了長(zhǎng)期記憶和工作記憶,使用戶與數(shù)字生命的聊天記錄能夠被記錄下來(lái),并在未來(lái)更長(zhǎng)的時(shí)間內(nèi)被回憶,使聊天內(nèi)容更貼合用戶本身,讓數(shù)字生命如同用戶的好哥們、好閨蜜一般,能夠一直陪伴用戶并越來(lái)越了解用戶。
以下是數(shù)字生命 Agent 框架的架構(gòu)圖:
(架構(gòu)圖)
Agent 框架的記憶功能的核心是對(duì)話管理。我們將數(shù)字生命中涉及的長(zhǎng)期記憶、智能長(zhǎng)期記憶、工作記憶、系統(tǒng)指令等都統(tǒng)一抽象為對(duì)話管理,回憶操作完成后,全部坍縮成可直接輸入給大語(yǔ)言模型的對(duì)話 list。這樣的設(shè)計(jì)從復(fù)雜到簡(jiǎn)潔,最終實(shí)現(xiàn)了簡(jiǎn)單、高效、易用的數(shù)字生命 Agent 框架。
數(shù)字生命實(shí)現(xiàn)過(guò)程中的挑戰(zhàn)
最初的數(shù)字生命項(xiàng)目在實(shí)現(xiàn)第一遍后進(jìn)行了重構(gòu),因?yàn)閷?duì)話管理本身涉及復(fù)雜的邏輯,再加上記憶功能,代碼量龐大,可讀性和可維護(hù)性都變得極差。于是,我們決定將記憶功能單獨(dú)抽離出來(lái),形成一個(gè)獨(dú)立的模塊,并與對(duì)話管理解耦,使記憶功能能夠被其他模塊復(fù)用。
在實(shí)現(xiàn)記憶功能的過(guò)程中,我們面臨了五大挑戰(zhàn)。以下是針對(duì)每個(gè)挑戰(zhàn)的解決方案:
挑戰(zhàn)一:如何讓數(shù)字生命記住用戶的聊天內(nèi)容 為解決此問(wèn)題,我們采用了高效的信息存儲(chǔ)和檢索技術(shù)。設(shè)計(jì)了合理的數(shù)據(jù)結(jié)構(gòu)和索引,以便快速存儲(chǔ)和查找用戶的聊天記錄。核心的信息檢索技術(shù)是向量搜索,我們使用向量搜索技術(shù)將用戶的聊天記錄轉(zhuǎn)化為向量,并將其存儲(chǔ)在向量數(shù)據(jù)庫(kù)中,從而能在毫秒級(jí)別的時(shí)間內(nèi)檢索到用戶的聊天記錄。
挑戰(zhàn)二:長(zhǎng)期保存和回憶聊天內(nèi)容 由于記憶的存儲(chǔ)需要長(zhǎng)期保存,將對(duì)話記錄簡(jiǎn)單地存儲(chǔ)到向量數(shù)據(jù)庫(kù)中變得十分笨重。為此,我們提出了智能長(zhǎng)期記憶的方案,使用類(lèi)似于知識(shí)圖譜的壓縮算法,將用戶的聊天記錄轉(zhuǎn)化為知識(shí)圖譜并存儲(chǔ)在知識(shí)圖譜數(shù)據(jù)庫(kù)中。這樣,我們就能在毫秒級(jí)別內(nèi)檢索到用戶的聊天記錄,同時(shí)知識(shí)圖譜的壓縮算法使知識(shí)圖譜的體積變小,減少了存儲(chǔ)空間的占用。
挑戰(zhàn)三:實(shí)現(xiàn)社會(huì)性和多人交流 為了實(shí)現(xiàn)社會(huì)性,我們引入了角色和身份的概念,使數(shù)字生命能夠理解不同的用戶角色和關(guān)系。在多人交流方面,設(shè)計(jì)了身份映射的機(jī)制,確保數(shù)字生命能夠正確處理多人的聊天場(chǎng)景。
挑戰(zhàn)四:使用低能力模型實(shí)現(xiàn)記憶功能 為了在低能力模型上實(shí)現(xiàn)記憶功能,我們采用了一些技巧和優(yōu)化方法。例如,使用知識(shí)蒸餾和遷移學(xué)習(xí)技術(shù),將已有的知識(shí)和記憶傳遞給低能力模型;結(jié)合特定領(lǐng)域的模型,也可以增強(qiáng) Agent 的能力。實(shí)際測(cè)試中,我們?cè)陂_(kāi)源的 7B 模型上也取得了很好的效果。
挑戰(zhàn)五:降低 Token 消耗量 降低 Token 消耗量對(duì)于提高系統(tǒng)效率和性能至關(guān)重要。我們通過(guò)對(duì)輸入文本進(jìn)行預(yù)處理和簡(jiǎn)化,減少不必要的重復(fù) Token 生成。智能長(zhǎng)期記憶技術(shù)對(duì)輸入的文本進(jìn)行預(yù)處理和簡(jiǎn)化,進(jìn)一步降低了 Token 的消耗量。
通過(guò)克服這些挑戰(zhàn),我們成功實(shí)現(xiàn)了數(shù)字生命 Agent 框架,并使其具備了強(qiáng)大的記憶功能。這為用戶提供了更加個(gè)性化和智能化的交互體驗(yàn),也為數(shù)字生命的發(fā)展開(kāi)辟了廣闊的前景。
數(shù)字生命 Agent 框架的未來(lái)前景
數(shù)字生命 Agent 框架的未來(lái)充滿了無(wú)限的可能性。隨著技術(shù)的不斷進(jìn)步,我們可以期待數(shù)字生命在以下幾個(gè)方面取得更大的發(fā)展:
更加個(gè)性化的交互:通過(guò)不斷改進(jìn)記憶功能,數(shù)字生命能夠更好地理解用戶的喜好、需求和行為模式,從而提供更加個(gè)性化的服務(wù)和建議。
輔助決策:數(shù)字生命可以成為用戶的智能助手,幫助進(jìn)行決策,如商品推薦、行程規(guī)劃、職場(chǎng)建議等。
廣泛的應(yīng)用領(lǐng)域:數(shù)字生命可應(yīng)用于各種領(lǐng)域,如智能客服、智能助手、虛擬角色、游戲 NPC 等,為人們的生活和工作帶來(lái)更大的便利。
多模態(tài)交互:除了文本交互,數(shù)字生命可以結(jié)合語(yǔ)音、圖像等多模態(tài)信息,實(shí)現(xiàn)更加自然和豐富的交互方式。
與物聯(lián)網(wǎng)的融合:數(shù)字生命可以與物聯(lián)網(wǎng)設(shè)備相結(jié)合,實(shí)現(xiàn)智能家居、智能城市等更廣泛的應(yīng)用場(chǎng)景。
倫理和法律問(wèn)題:隨著數(shù)字生命的發(fā)展,倫理和法律問(wèn)題將逐漸凸顯,需要關(guān)注數(shù)據(jù)隱私、人工智能倫理等方面,確保數(shù)字生命的發(fā)展符合人類(lèi)的利益和價(jià)值觀。
技術(shù)創(chuàng)新:未來(lái)可能會(huì)出現(xiàn)新的技術(shù)和算法,進(jìn)一步提升數(shù)字生命的性能和功能,例如利用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等技術(shù),數(shù)字生命能夠不斷學(xué)習(xí)和進(jìn)化,提供更好的服務(wù)。
未來(lái),數(shù)字生命有望在更加個(gè)性化的交互、輔助決策、多模態(tài)交互、與物聯(lián)網(wǎng)的融合等方面取得突破。同時(shí),也需要關(guān)注倫理和法律問(wèn)題,推動(dòng)技術(shù)創(chuàng)新,以實(shí)現(xiàn)數(shù)字生命的可持續(xù)發(fā)展。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。