0
本文作者: 岑大師 | 2024-07-28 09:58 |
自ChatGPT在2022年橫空出世,人工智能領(lǐng)域便迎來了一場新的革命。大語言模型(LLMs)以其卓越的文本處理能力,迅速成為研究者和開發(fā)者的新寵。隨著這些模型的崛起,如何與它們有效交互的問題也日益凸顯,提示詞(Prompt)的概念逐漸成為研究的熱點(diǎn)。
但什么是提示詞?在早期的計(jì)算機(jī)交互中,提示詞是指在提示符(如MS Dos的C:>或Python的>>>)左側(cè),用戶輸入以激發(fā)系統(tǒng)做出響應(yīng)的指令。而在大模型的語境中,提示詞則是一種引導(dǎo)性的語句或問題,它猶如魔法咒語,激發(fā)著大語言模型的潛能,引導(dǎo)它們按照我們的指令生成文本、回答問題或執(zhí)行任務(wù)。
在與大語言模型的互動(dòng)中,提示詞就像是一把打開知識(shí)寶庫的鑰匙。它不僅是一座溝通的橋梁,更是挖掘語言模型深層潛力的工具。ChatGPT的創(chuàng)始人Sam Altman將提示詞工程(Prompt Engineering)視為一種用自然語言編程的黑科技,認(rèn)為這是一種能夠帶來高回報(bào)的技能。
能否讓ChatGPT或其他大語言模型給出滿意的答案,很大程度上取決于你如何巧妙地使用提示詞。隨著人工智能生成內(nèi)容(AIGC)時(shí)代的到來,提示詞的價(jià)值和重要性愈發(fā)凸顯。
然而,Prompt技術(shù)的復(fù)雜性遠(yuǎn)超我們的想象。早期的研究者們?cè)谔剿鱌rompt技術(shù)時(shí),仿佛是在進(jìn)行一場煉金術(shù)式的探索,充滿了不確定性和偶然性。他們通過不斷嘗試不同的提示詞,試圖找到能夠激發(fā)大語言模型最佳表現(xiàn)的“魔法咒語”。這種方法雖然在某些情況下能夠奏效,但卻缺乏系統(tǒng)性和可復(fù)制性。
為了讓Prompt技術(shù)更進(jìn)一步,它必須經(jīng)歷一場“從煉金術(shù)到化學(xué)”的系統(tǒng)發(fā)展過程。這意味著我們需要將Prompt技術(shù)從一種基于經(jīng)驗(yàn)的技藝,轉(zhuǎn)變?yōu)橐婚T基于科學(xué)原理的工程學(xué)科。這需要對(duì)現(xiàn)有的Prompt技術(shù)進(jìn)行深入的分析和總結(jié),建立起一套完整的理論體系和方法論。
例如:不同的提示詞是如何影響大語言模型的理解和生成的?在不同的應(yīng)用場景下,應(yīng)該以什么樣的原則,去設(shè)計(jì)和優(yōu)化提示詞?近日,相關(guān)論文之一《Iterative Prompt Refinement for Mining Gene Relationships from ChatGPT》,上線期刊《International Journal of Artificial Intelligence and Robotics Research》(IJAIRR)。
該論文聚焦于大語言模型在生物信息學(xué)領(lǐng)域的應(yīng)用,主要研究了如何利用大型語言模型(如ChatGPT)來挖掘基因關(guān)系,并提出了一種迭代提示優(yōu)化技術(shù)來提高預(yù)測基因關(guān)系的準(zhǔn)確性。論文為生物信息學(xué)研究者使用ChatGPT改善工作流程、提高工作效率提供了一種新的思路。
借論文上線,密蘇里大學(xué)哥倫比亞分校計(jì)算機(jī)系許東教授向雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))-AI科技評(píng)論分享了人工智能大型模型在生命科學(xué)領(lǐng)域的影響,以及他對(duì)如何更好地將大型語言模型應(yīng)用于生物信息學(xué)研究的思考。
論文鏈接:https://gairdao.com/doi/10.1142/S2972335324500054
論文引用鏈接:https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335324500054&area=0000000000000001
生物信息學(xué):迎接第二次繁榮期
回望上個(gè)世紀(jì)90年代,那是一個(gè)被形象地稱為生物信息學(xué)研究的“寒武紀(jì)”時(shí)期。人類基因組計(jì)劃的啟動(dòng)、全球蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽的舉辦,以及生物學(xué)信息量的爆炸性增長,加之信息技術(shù)的跨時(shí)代發(fā)展,共同為生物信息學(xué)帶來了第一次黃金時(shí)代,使其成為當(dāng)時(shí)的前沿學(xué)科之一。如今,隨著人工智能技術(shù)的突破,特別是AI大模型在生物信息學(xué)中的應(yīng)用,我們有望迎來生物信息學(xué)的第二個(gè)繁榮期。
許東教授正是上世紀(jì)90年代生物信息學(xué)黃金期的親歷者之一。他指出,在生命科學(xué)領(lǐng)域,人工智能大型模型的應(yīng)用已經(jīng)變得日益廣泛,其應(yīng)用主要集中在以下幾個(gè)方面:
蛋白質(zhì)模型:通過利用蛋白質(zhì)序列訓(xùn)練出的大模型,可以進(jìn)行各種蛋白質(zhì)預(yù)測任務(wù),包括新蛋白質(zhì)的設(shè)計(jì);
單細(xì)胞模型:單細(xì)胞數(shù)據(jù)量巨大,通常一個(gè)單細(xì)胞實(shí)驗(yàn)就涉及數(shù)千到數(shù)百萬個(gè)細(xì)胞?;趩渭?xì)胞轉(zhuǎn)錄組數(shù)據(jù)訓(xùn)練的大模型,能夠進(jìn)行大規(guī)模的單細(xì)胞數(shù)據(jù)分析;
醫(yī)學(xué)多模態(tài)模型:通過整合醫(yī)學(xué)文本(如病歷、醫(yī)生筆記)、圖像和其他檢查報(bào)告等多種數(shù)據(jù)類型,訓(xùn)練出的大模型,可以用于醫(yī)學(xué)數(shù)據(jù)分析;
除了上述三個(gè)主要領(lǐng)域外,其他如核酸定位、蛋白質(zhì)與DNA/RNA的相互作用等方面,也有研究者在開發(fā)相應(yīng)的大模型。這些應(yīng)用場景能夠輔助生物信息學(xué)家以更快、更精確的方式處理生物信息學(xué)問題,從而提升研究效率并降低成本。
然而,盡管AI大模型在生物信息學(xué)領(lǐng)域的應(yīng)用已經(jīng)取得了一定的進(jìn)展,但大模型在生物信息學(xué)領(lǐng)域的應(yīng)用目前仍處于早期發(fā)展階段,并存在著許多挑戰(zhàn)。首先遇到的一個(gè)問題是,AI大模型需要大量高質(zhì)量的生物信息學(xué)數(shù)據(jù),但這些數(shù)據(jù)的質(zhì)量和完整性可能存在問題;同時(shí)目前AI大模型的解釋性和可解釋性可能存在問題,“幻覺”的存在嚴(yán)重影響著研究的可靠性。
如何解決上述問題,讓AI大模型在生物信息學(xué)研究中發(fā)揮更大作用?許東告訴雷峰網(wǎng)-AI科技評(píng)論,Prompt技術(shù)為生物信息學(xué)領(lǐng)域提供了一種靈活且易于實(shí)施的方法,尤其在數(shù)據(jù)資源有限的情況下,Prompt技術(shù)仍可能成為主流方法之一。
用提示學(xué)習(xí)提升AI模型的精準(zhǔn)度
在機(jī)器學(xué)習(xí)領(lǐng)域,將Prompt從“基于經(jīng)驗(yàn)”轉(zhuǎn)變?yōu)椤盎诳茖W(xué)原理”的做法被稱為“提示學(xué)習(xí)”。聊天機(jī)器人之所以在很大程度上依賴于提示,是因?yàn)镃hatGPT的預(yù)訓(xùn)練模型中存在大量知識(shí),為了更好地利用這些知識(shí)和能力,OpenAI采用了基于人類反饋強(qiáng)化學(xué)習(xí)(RLHF)方法,通過人類輸入來“比對(duì)”語言從而達(dá)到人機(jī)交互的目的。因此,必須仔細(xì)設(shè)計(jì)聊天機(jī)器人的提示,以獲得有價(jià)值、準(zhǔn)確和穩(wěn)健的響應(yīng)。
提示學(xué)習(xí)的核心在于將用戶輸入的文本轉(zhuǎn)化為特定的提示(prompt)格式。這一過程通常包括兩種模式:第一種是自編碼模式,采用文本中間占位符的自然語言模板,讓大模型在指定占位符讓生成答案文本。第二種是自回歸模式,給大模型提供問題與背景信息,讓大模型自由發(fā)揮生成答案文本。這些方法實(shí)質(zhì)上是為預(yù)訓(xùn)練語言模型設(shè)計(jì)任務(wù),包括輸入模板、標(biāo)簽樣式以及模型輸出與標(biāo)簽的對(duì)應(yīng)關(guān)系。
論文的研究正是在此基礎(chǔ)上,將自回歸模式的提示學(xué)習(xí)用于復(fù)雜的生物信息學(xué)場景中,并利用迭代提示優(yōu)化、思維鏈等技術(shù),通過與ChatGPT的交互,逐步優(yōu)化提示,以提高預(yù)測基因關(guān)系的準(zhǔn)確性。
(利用 GPT 模型進(jìn)行基因關(guān)系挖掘的迭代提示細(xì)化框架。該方法利用 GPT-4 的高級(jí)邏輯能力來自主改進(jìn)提示,并利用 GPT-3.5 的低成本和高速進(jìn)行初始基于事實(shí)的查詢處理。)
這項(xiàng)工作的關(guān)鍵點(diǎn)之一是元提示設(shè)計(jì)(Meta-Prompt Design):元提示為對(duì)話機(jī)器人設(shè)定角色,提示來指導(dǎo)GPT-4進(jìn)行提示優(yōu)化,增強(qiáng)回答的專業(yè)性。元提示包含具體指令,如改變角色、省略細(xì)節(jié)等,以提高提示的有效性。
另一關(guān)鍵點(diǎn)則是迭代優(yōu)化技術(shù)的引入,利用GPT-4的能力進(jìn)行迭代提示優(yōu)化。首先使用GPT-3.5生成基因關(guān)系提示,然后評(píng)估這些提示的效果(如F-1分?jǐn)?shù)、精確度和召回率);將預(yù)測結(jié)果與實(shí)際數(shù)據(jù)(如KEGG數(shù)據(jù)庫)進(jìn)行比較,識(shí)別錯(cuò)誤和不足,然后將這些反饋信息用于進(jìn)一步優(yōu)化提示;最后將優(yōu)化后的模型應(yīng)用于KEGG Pathway Database進(jìn)行基準(zhǔn)測試,以驗(yàn)證其在解析復(fù)雜基因關(guān)系和疾病相關(guān)途徑方面的有效性。
此外,論文還引入了思維鏈(Chain-of-Thought)和思維樹(Tree-of-Thought)策略,引導(dǎo)ChatGPT進(jìn)行更深入的邏輯推理,提高答案的準(zhǔn)確性和深度;同時(shí)將復(fù)雜問題分解為更易于管理的子問題序列,逐步引導(dǎo)ChatGPT構(gòu)建更完整的答案,這種方法特別適用于復(fù)雜的基因關(guān)系網(wǎng)絡(luò)構(gòu)建。
實(shí)驗(yàn)結(jié)果表明,通過迭代提示優(yōu)化技術(shù),ChatGPT在預(yù)測基因關(guān)系方面的準(zhǔn)確性顯著提高。特別是在復(fù)雜基因關(guān)系和疾病相關(guān)途徑的解析中,展示了其潛力和有效性。
生物信息學(xué)研究的新動(dòng)力
“Prompt技術(shù)在生物信息學(xué)領(lǐng)域具有顯著的優(yōu)勢。”許東告訴AI科技評(píng)論,首先,Prompt技術(shù)的數(shù)據(jù)需求低,不需要大量的數(shù)據(jù)即可進(jìn)行訓(xùn)練,因此在小數(shù)據(jù)集上表現(xiàn)出色。這對(duì)于生物信息學(xué)領(lǐng)域尤為重要,因?yàn)樵S多生物醫(yī)學(xué)數(shù)據(jù)集規(guī)模有限;其次,由于是在大型預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行操作,Prompt技術(shù)易于實(shí)施和應(yīng)用;最后,生物信息學(xué)中許多問題本質(zhì)上是小數(shù)據(jù)問題,Prompt技術(shù)因此具有廣泛的應(yīng)用前景和場景。
在解釋迭代提示優(yōu)化技術(shù)如何有效解決大型語言模型中的“幻覺”問題時(shí),許東認(rèn)為,不僅僅是大型語言模型,人類自身在某些情況下也會(huì)出現(xiàn)類似的“幻覺”現(xiàn)象。例如,人們可能會(huì)錯(cuò)誤地回憶某些事件的細(xì)節(jié),這并非有意誤導(dǎo),而是記憶出現(xiàn)了偏差。
大型語言模型的“幻覺”原因大致可分為三類:1)誤解用戶問題;2)訓(xùn)練數(shù)據(jù)的混淆導(dǎo)致生成回答時(shí)出現(xiàn)混淆;3)缺乏反思能力,未能有效識(shí)別和糾正自身的錯(cuò)誤。而迭代提示優(yōu)化技術(shù)正是針對(duì)這三類原因?qū)ΠY下藥,通過迭代優(yōu)化,模型能夠更準(zhǔn)確地理解用戶的問題和提示,減少誤解;同時(shí)增強(qiáng)知識(shí)概括,有助于模型更好地概括和區(qū)分訓(xùn)練數(shù)據(jù)中的知識(shí),避免信息混淆;最后,迭代優(yōu)化使模型具備更強(qiáng)的、類似于人類的思考過程自我反思能力,能夠識(shí)別并改進(jìn)生成的回答。
與傳統(tǒng)方法相比,迭代提示優(yōu)化技術(shù)通過模擬人類的學(xué)習(xí)和思考過程,使模型在處理復(fù)雜問題時(shí)更為高效和協(xié)調(diào)。這種方法比傳統(tǒng)的基于規(guī)則的系統(tǒng)更具靈活性和適應(yīng)性,能夠處理更廣泛的任務(wù)和數(shù)據(jù)類型。因此,通過這種方法,大型語言模型在生成回答時(shí)的準(zhǔn)確性和可靠性得到了顯著提升,減少了“幻覺”現(xiàn)象的發(fā)生,從而在生物信息學(xué)等領(lǐng)域展現(xiàn)出更大的應(yīng)用潛力。
許東同時(shí)還表示,盡管Prompt技術(shù)的應(yīng)用前景廣闊,但其自身也存在一定的局限性,如高度依賴于訓(xùn)練數(shù)據(jù)的質(zhì)量和代表性、泛化能力受限等,同時(shí)在論文中許東也提到,模型的性能波動(dòng)和對(duì)訓(xùn)練數(shù)據(jù)的敏感性表明需要進(jìn)一步的優(yōu)化和迭代策略。未來的工作可能包括模型定制、更先進(jìn)的迭代提示算法開發(fā)以及在更廣泛的研究問題中評(píng)估方法的有效性。
“雖然并非所有問題都適合這種方法,但可能相當(dāng)比例的問題,可能通過大模型和Prompt技術(shù)得到更準(zhǔn)確的解決方案?!闭劶癙rompt技術(shù)在生物信息學(xué)領(lǐng)域的未來潛力,許東充滿信心?!按竽P驮诤芏囝I(lǐng)域還有著很大的優(yōu)化空間,例如現(xiàn)在缺乏專門的生物信息學(xué)的大模型,而隨著大模型的發(fā)展,Prompt技術(shù)將在這些模型上發(fā)揮更大的作用?!?/p>
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。