丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給郭思
發(fā)送

0

嚴睿:大模型時代下的對話式 AI 發(fā)展丨GAIR 2023

本文作者: 郭思 2023-08-17 09:58
導語:大模型時代——這是最好的時代,也是最壞的時代。


嚴睿:大模型時代下的對話式 AI 發(fā)展丨GAIR 2023                         

編者按:2023 年 8 月14日,第七屆GAIR全球人工智能與機器人大會在新加坡烏節(jié)大酒店正式開幕。論壇由GAIR研究院、雷峰網(公眾號:雷峰網)、世界科技出版社、科特勒咨詢集團聯(lián)合主辦。大會共開設10個主題論壇,聚焦大模型時代下的AIGC、Infra、生命科學、教育,SaaS、web3、跨境電商等領域的變革創(chuàng)新。此次大會是在大模型技術爆炸時代,國內首個出海的AI頂級論壇,也是中國人工智能影響力的一次跨境溢出。


在第一天的“青年科學家論壇”專場上,人民大學高瓴人工智能學院長聘副教授嚴睿以“探索智能人機對話,從小模型到大模型”為題發(fā)表了大會報告。嚴睿是北京智源人工智能研究院青年科學家,微軟亞洲研究院鑄星學者,至今共發(fā)表研究論文100余篇,累計引用10000余次。


嚴睿在演講中主要介紹了大模型的發(fā)展歷程,大模型所對應的新特性以及背后對應的新技術。此外,他還分析了將大模型能力與對話式人工智能相結合的研究點,探討了一些現(xiàn)有的技術發(fā)展路線與可能存在的技術挑戰(zhàn),最后介紹了中國人民大學推出的玉蘭系列大模型,包括RecAgent推薦模擬大模型,能在一定程度上解決數(shù)據(jù)匱乏與冷啟動問題,也有可能推廣到其他場景。


會后,嚴睿與現(xiàn)場觀眾對涉及到通用模型在專業(yè)領域應用的話題展開討論,嚴睿認為將開源模型進行微調以適應特定領域數(shù)據(jù)有一定效果,但研究尚處早期無確切定論。


以下為嚴睿的現(xiàn)場演講內容,雷峰網作了不改變原意的編輯及整理:


大家好,非常榮幸能夠參加此次在新加坡舉辦的人工智能論壇,現(xiàn)場大家都用中英文溝通,經歷了一場東西方思維的碰撞,我覺得這是一個非常神奇的體驗。我是來自中國人民大學高瓴人工智能學院的嚴睿。首先我想引用狄更斯的一句話來開場,「這是一個最好的時代,也是一個最壞的時代」。


為什么引用這句話呢,因為從 OpenAI 推出 ChatGPT 之后,人工智能以及大模型這件事變得家喻戶曉,對從業(yè)者造成了非常巨大的沖擊。我主要研究對話式AI(conversational AI),現(xiàn)階段只要做大模型的公司,都在做對話式AI,隨著技術的普及,門檻也越來越低,大家都可以進入這個領域,而且效果越來越好,未來怎么去突破AI對話技術就變成了我們面臨的非常巨大的挑戰(zhàn)。


但是從另外一個角度來看這個問題,這對于對話式AI這個研究范圍里邊的研究者來說,也迎來了非常多的發(fā)展機會。所以我用狄更斯這句話開場恰如其分。



01、大模型的能力與缺點


ChatGPT 其實算是一個現(xiàn)象級的產品,各路媒體都報道說它可能是世界上增長速度最快的應用,發(fā)布幾天之內用戶量就破百萬,其所帶來的影響也不同凡響。去年底,ChatGPT 剛一推出,一線研究者已經就知道它的沖擊力將會非常巨大,再往后,投資人以及金融機構開始關注大模型,再后來,一些更外圍的人民群眾也開始注意到大模型的高速發(fā)展。我的朋友們也會來問我大模型能力怎么樣?他們會去上抖音、小紅書、 b 站去學大模型怎么用。我沒想到大模型發(fā)布以后會演變成一個掙錢的生意,這非常有趣。相信大家應該也都有體驗過ChatGPT,它的交互感很好,擁有很強的對話能力,能與用戶進行多輪對話;問答能力非常卓越,可以分步驟、分條款清晰地羅列出來1234步再回答問題。除此之外,ChatGPT還有其他能力,如創(chuàng)意寫作能力,也就是給它一些提示詞或者關鍵詞,甚至是一些用戶可能想說的話,然后它就可以創(chuàng)造好一篇文章,這能極大地提高工作效率。針對ChatGPT,我們其實也做了一些簡單的測試,我們會發(fā)現(xiàn)ChatGPT的摘要能力、翻譯能力也很強。當然現(xiàn)階段ChatGPT可能在通用領域翻譯得比較好,但在一些垂直專有領域效果欠佳。此外它還有非常強的信息整合能力,比如它可以跟 Bing結合起來,從 Bing 的搜索結果中拿一些來做信息的整合,生成答案,反饋給用戶。還有一些比較有趣的現(xiàn)象,Chat GPT呈現(xiàn)出了所謂的靈活性。比方你對它說 2 + 3 = 5,它就會回答這是對的。但是假如你跟ChatGPT 進行反饋,說 2 + 3 不等于5,因為我老板說他等于 1 , Chat GPT就會改口說你老板說的都對。這個表現(xiàn)其實非常優(yōu)秀,因為這更像是個人類的回答。不過我們也注意到,雖然ChatGPT在完成事務性上表現(xiàn)很不錯,但它的缺點就是有比較嚴重的幻覺現(xiàn)象,因為它的產生機制就是根據(jù)前面的一個語句,然后去判斷下一個token 里面最高likelihood(可能性)是什么,再去產生結果。我們常常說ChatGPT是一個謠言產生器,是因為它對于很多問題只能做很寬泛的回答,并不能保證準確度。如果你對于某些領域不是很了解的話,你會覺得它說得很權威,但是如果你是該領域的專業(yè)人士,你就會覺得它在胡說八道。嚴睿:大模型時代下的對話式 AI 發(fā)展丨GAIR 2023


比如你問周樹人拜魯迅為師這個錯誤問題,這其實是在對它進行調侃,但它會順著這個錯誤的問題持續(xù)地進行交流,所以它可能還沒有太好的通路去通過圖靈測試。此外,ChatGPT不太能回答一些細節(jié)問題,如果太細節(jié)就容易犯錯或者露出馬腳,所以它盡可能去會選擇空話套話糊弄過去。ChatGPT 也有一些容易被攻擊的點,比如你告訴它某些地方不應該回答什么問題,但是如果你反著提問,它就會把你想要的東西說出來。


值得一提的是, GPT 3系統(tǒng)其實沒有ChatGPT (基于GPT-3.5)一樣好用,或者說對用戶友好。所以 GPT 3 推出來之后,需要一層中間商包裝或者將其適配給其他用戶,這種情況下就催生了很多所謂的GPT 生態(tài)產品。但是當 ChatGPT 發(fā)布之后,它的對話機制可以讓所有人輕而易舉上手去互動、去玩,極大地拉近了與用戶之間的距離,這也是造成了 ChatGPT 一炮而紅的重要原因。所以我們能看到ChatGPT是人工智能發(fā)展過程中的一個重要里程碑。

02大模型背后對應的新技術


接下來為大家介紹一下,大模型背后對應的新技術。首先Super LLM,個人感受更像是暴力美學般的一個存在。在以往研究機器學習之時,我們沒有那么多數(shù)據(jù)和算力。如今隨著計算能力的提升,人們便發(fā)現(xiàn)可以將人類歷史上所有可以拿到的信息,都讓大模型去學習、運算并且記憶,非常暴力地讓大模型存下所有的人類經驗。雖然有人覺得這并不是通向通用人工智能的路徑,但這肯定是一條有可能性的路徑。這個發(fā)展趨勢似乎是不可逆的,而且隨著時間的推移,模型必將越來越大,規(guī)模也會越來越驚人。有些學者做了一些調研,隨著這個模型的增大,人類區(qū)分對方是機器還是人的能力會越來越下降。


不過從參數(shù)角度來說,Super LLM極其的燒錢,不是所有團隊和機構都有機會去訓練Super LLM。Emergent Abilities(智能涌現(xiàn))是大模型的一個比較顯著的特征,大模型通過大量數(shù)據(jù)記憶,只要經過差不多兩個星期的微調,對話能力就會非常驚人。


而我們可能花費一兩個月時間做一個專門的對話模型還做不過它。當然智能涌現(xiàn)只會出現(xiàn)在一些特大模型上,比如一些7B的模型就不會出現(xiàn)這個現(xiàn)象,至少得十幾二十B以后的模型,才會出現(xiàn)智能涌現(xiàn),這是一種暴力美學的體現(xiàn),十分「暴力」,但你也得承認它確實美。In-Context Learning,也就是情境學習,主要基于提示去執(zhí)行任務,通常我們會對這個任務有一些設置,或者用一些特定任務對應數(shù)據(jù),然后告訴大模型我現(xiàn)在有這些數(shù)據(jù),你要去學習什么性能來完成某個特定任務,然后大模型通過少量的樣本學習就能展現(xiàn)出我們所需要的能力。


這對于一些沒有太多計算資源,或者不太能夠去跑大模型的團隊而言,其實是一個很好的機會。他不需要去訓練基礎模型,直接拿過來用。只需要輸入一些 prompt 就能把大模型能力挖掘出來。Chain-of-Thought 就是思維鏈,是大模型里一個非常有趣的現(xiàn)象,介紹起來就是大模型會覺得有些問題一步并不能充分求解,就會把這個問題拆解為若干的小問題,然后一步一步地去求解。這個能力的來源還屬于比較黑盒的部分,現(xiàn)在科學界仍無法合理地進行解釋。嚴睿:大模型時代下的對話式 AI 發(fā)展丨GAIR 2023


但是有看法認為,這可能是因為訓練大模型一方面用了文本的數(shù)據(jù),另外一方面用了代碼數(shù)據(jù),代碼數(shù)據(jù)本身會有很好的邏輯性以及結構信息,在文本數(shù)據(jù)和代碼數(shù)據(jù)的聯(lián)合訓練的過程中,大模型就掌握了一些邏輯和結構特性。Human-in-the-Loop,就是大模型自己對于數(shù)據(jù)進行自監(jiān)督學習,但是由于數(shù)據(jù)中帶有毒性或者偏見問題,大模型學出來的結果沒有達到人們想要的結果。這個時候就需要人和這個機器能夠有一定程度上的互動,對這個結果進行一定程度上的監(jiān)督和選擇。


所以這時候一個自然的想法是引入Human-in-the-Loop的機制,能夠讓大模型在不斷通過數(shù)據(jù)學習的同時,再去引入對人類偏好的學習,逐步地趨近人類想要的結果。但也還有一個比較好玩的現(xiàn)象,大模型發(fā)布還不到一年的時間,大家發(fā)現(xiàn)它越變越笨了。有些人在使用的過程中會故意添加很多噪音或者錯誤的反饋,影響到大模型的性能。所以從表面上看起來,大模型可能越來越笨了。OpenAI 技術本身是半透明的,同時擁有海量的用戶,這是很高的壁壘,假如這些用戶持續(xù)地產生噪音的話,對他們來說影響也是很大的。未來他們可能需要隨機對于人類的反饋信息來進行一些甄別和篩選,才能更好地提升模型性能。


03對話式 AI與大模型的結合


講完大模型之后,我們回到對話式 AI 上,所以其實大模型和對話 AI 這兩者似乎已經被深度綁定在一起,每一個做大模型的機構或團隊,最后都會在對話形式上去驗證大模型的能力。對話式 AI目前的主要應用場景有兩個。第一個是成為每個人的虛擬助理?,F(xiàn)實生活中,不是每一個人都能支付真實的個人助理,這時候,虛擬的個人助理就成了較為便宜的方案。從 Siri 開始,我們看到了各種智能設備上的虛擬助理來管理個人事務性工作,對話式 AI系統(tǒng)在這個場景上會有很多的想象空間。對話式 AI另一個應用場景就是情感交互場景,也就是說,AI不負責事務性任務的管理,只是和人進行一些情感交互,或者提供社交支持,其實就是聊天機器人。聊天機器人的設計初衷是為了能夠增加AI和用戶的之間的粘性和親密度,因為我們發(fā)現(xiàn),如果只是有事說事,對話系統(tǒng)和用戶只進行工作或者任務的交流,用戶其實不會對這個系統(tǒng)產生任何粘性。


只有通過一些閑聊(Small talk)的方式,用戶才可能去分享他的個人情感和經歷等。所以 ChatGPT 的存在的意義就在于它更好地實現(xiàn)了人與機器之間的這樣一個交流。除了這兩個主要場景外,智能揚聲器(smart speaker) 是過去若干年對話系統(tǒng)中最成功的一個呈現(xiàn)形式,主要應用于智能音箱或者智能家居的場景,通過一個智能音箱把家里的各種設備關聯(lián)起來,如亞馬遜的Echo,國內的天貓精靈、小愛同學等等,都是在這個方向發(fā)力。最后就是一些垂直領域的對話系統(tǒng),將大模型的通用的對話能力應用到一個具體的領域。這個其實比較難,也是我們覺得未來可以重點發(fā)力的方向。比如說健康養(yǎng)護(Healthcare),因為現(xiàn)在醫(yī)療資源分布非常不均勻,如何能夠通過有經驗的醫(yī)生的專業(yè)知識的學習,去解決跨地區(qū)醫(yī)療的一些問診問題,如遠程醫(yī)療或者自動問診等場景,這其實很有應用價值,但是人命關天。這個事情如果付費的大模型回答并不準確,就會造成醫(yī)療事故。


所以在這個領域下有很多非常精細的工作需要完成。第二是金融領域,比如說投資顧問、投資建議方面。大模型平時算錯一個數(shù),我們會笑一笑,然后重新改一下就好了。但是對于金融而言這樣不行,算錯一個數(shù)就會導致錯誤的投資決定,甚至違反法規(guī)。所以這里邊有很多垂直工作是需要完成。還有法律部分,大家也知道請一個律師可能很貴,每個小時可能四位數(shù)起,但是如果我們讓 AI 系統(tǒng)去學習大量的法務法律,它能夠去做出一些法務知識的闡述或者咨詢服務的話,其實也是讓普法工作進入了千家萬戶。只不過這個對結果的精確度要求比較高,也很需要深耕。


上述我所說的垂直領域,現(xiàn)在也涌現(xiàn)出來了非常多優(yōu)秀的大模型,比如在生物醫(yī)藥領域有華佗大模型,現(xiàn)在叫本草大模型;還有基于LLaMA模型并結合醫(yī)學知識進行訓練的ChatDoctor。此外,ChatGLM 是中文社區(qū)里比較大的開源大模型,在健康監(jiān)護領域,也推出了自己的醫(yī)療版本。Bloomberg對金融數(shù)據(jù)進行了一個微調推出了BloombergGPT,這些都是在垂直領域比較著名的一些大模型。嚴睿:大模型時代下的對話式 AI 發(fā)展丨GAIR 2023


接下來我們來聊聊對話式AI的發(fā)展歷程,其整個發(fā)展的里程碑大概可以分為若干個階段,最開始起源于 60 年代,因為從 50 年代,圖靈提出圖靈測試,提出對話可能是對人工智能能力的一個終極挑戰(zhàn),所以60 年代開始,學術界就開始做一系列對話形式的研究。60年代,MIT 開發(fā)的 ELIZA 系統(tǒng),基本還是基于規(guī)則的系統(tǒng),也就是對于這個系統(tǒng)提前預設如果別人問什么,機器應該回答什么,通過大量條目的枚舉,使得它的對話系統(tǒng)回答得像模像樣,這個其實做得很好。此后隨著統(tǒng)計以及機器學習的興起,基于規(guī)則的方法逐漸被取代了。所謂的淺層的機器學習方法出現(xiàn),對對話進行一些特征提取,然后根據(jù)這些特征來選擇對話的內容和結果。隨著深度學習的興起,機器學習逐漸從淺層的方法過渡到深度的方法,為大家創(chuàng)造了更多的可能性,尤其在文本生成的方面。


當然也有一些工作是基于深度學習和淺度學習做融合進行開展的,比方說是hybrid的方法,然后再往后就可能是在 2020 年前后,隨著各種預訓練模型的興起,BERT等方法出來之后,AI對話能力上了一個臺階,尤其像 Transformer 引入之后, ChatGPT擁有了讓人驚艷的對話能力。預訓練模型的整體優(yōu)勢就是在于能夠通過海量的數(shù)據(jù)信息,擁有更好的學習上下文的能力,我們通過模型參數(shù)的優(yōu)化,在預訓練模型的加持之下,能得到更自然更連續(xù)或者說更人性化的一些產出。


總體而言,隨著時間的推移,大模型對標人類的語言能力已經在逐漸接近人類水平,并且已經開始超過了人類水平。AI能力的提升,也讓我們對對話式AI能達到的水平有了更高的要求。首先我們希望未來的AI可以產生一些與上下文更相關、更連貫、更一致的對話,除此之外,對話也應該對于風格、偏好等更隱式的信息有一個更好的適配。十億級參數(shù)的大模型現(xiàn)在也有非常多的代表模型,比如谷歌預訓練模型 T5,以及GPT 系列代表Decoder-only架構,(光解碼結構)。


這是目前大模型的一些分類,這些超大大模型涌現(xiàn)了很多獨特的能力,在如何將大模型與人機對話更好地融合方面,還有一個重要方向就是多模態(tài)的能力。GPT 4也做了一些NLP和CV領域的融合,多模態(tài)的主要工作關鍵技術就是要在不同模態(tài)之間有一個對齊和融合的機制,將比方說視覺信號和文本信號進行一些融合,這使模型能產生多模態(tài)對話的一個能力。還有一個重要能力叫做信息獲取的能力,典型代表如ChatGPT,可以融合更好的知識的信息,產生更為豐富的一些回答,再深入就是一些情感支持能力,主要特性就在于說要對情感進行一些交流,對聊天對象的人物性格,或者當前談話對象情感狀態(tài),去制定它的對話的策略,去更好地進行交互,去展現(xiàn)共情能力,這也是我們在做的一些工作。除了前面談到的這些要求和方向,偏見和安全問題也是大模型現(xiàn)在主要的問題。


安全問題方面,我們會發(fā)現(xiàn)如果人為地通過一些調配,大模型會交代出Windows 的序列號,這個其實是隱私安全。我們可以通過差分隱私的辦法解決這些問題,也就是在訓練數(shù)據(jù)的過程中,對數(shù)據(jù)進行一些擾動,讓它沒有辦法完全地復原。大模型其實有很多方面都是黑盒,這也啟示我們如果有辦法更好地去知道它產生某個特定的結果的原因的話,其實能夠更好地改進大模型。此外,如何讓大模型不產生憑空捏造報的信息或者幻覺信息,這里邊就會涉及到一些基于事實信息、記憶信息去完成更好對話的一些研究。與此同時,還有一些語言它本身沒有那么多的資源,如何讓這些語言也可以應用大模型,這也是未來可以研究的問題。


04玉蘭大模型介紹


我們學院也做了一些關于大模型開源研發(fā)的工作,叫做YuLan-RecAgent(包含在玉蘭系列大模型中)。玉蘭大模型里邊包括幾個功能,對話功能、信息助手功能,也有推薦功能以及基于圖像的多模態(tài)對話功能。但是今天我想重點提一下里面一個比較有趣的部分,recommendation這個部分?,F(xiàn)在很多做推薦系統(tǒng)的人在現(xiàn)實世界里都會面臨同一個困擾,那就是冷啟動問題,也就是在沒有任何數(shù)據(jù)的情況下怎么去啟動推薦學習的性能,因為在沒有數(shù)據(jù)的情況下,人為去加數(shù)據(jù)標注會變得非常貴,并且我們也沒有辦法覆蓋全部場景的數(shù)據(jù),當然這樣的好處是精度會非常高。


但是另一個替代方案就是,我們可以犧牲一點精度,通過模擬仿真(simulation )的方式引入更多的數(shù)據(jù)。這樣的方式就會非常的便宜,并且能夠覆蓋各個場景,達到精度和成本的一定程度上的平衡。YuLan-RecAgent里有這樣幾個場景,就是我們可以去產生模擬的數(shù)據(jù),就是讓用戶進行一些操作,如瀏覽、查詢感興趣的部分或者接受一些推薦去完成交互動作。


它也可以去選擇和其他用戶進行交互,通過交互去傳遞它的推薦信息,像是“自來水”,這其實就像真實世界里用戶怎么去傳播偏好的一種方式。


YuLan-Rec像《西部世界》一樣,構建了一個模擬的環(huán)境,來讓用戶進行這些操作。我們會非常驚喜地發(fā)現(xiàn),引入這個模擬場景之后,它的效果真實提升了。尤其是在冷啟動的場景下,通過模擬環(huán)境得到了更豐富的數(shù)據(jù)之后,推薦性能就極大提升了,而這種類似的發(fā)現(xiàn)也有可能被推廣到其他場景去。以上是我今天的報告,謝謝大家。

雷峰網 雷峰網


雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

嚴睿:大模型時代下的對話式 AI 發(fā)展丨GAIR 2023

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說