0
本文作者: 黃楠 | 2023-09-15 14:50 |
在生產(chǎn)環(huán)節(jié)中,95% 是一個分水嶺。
以人為對照標(biāo)準(zhǔn),人工的準(zhǔn)確率在 92% 至 98% 之間,因此,行業(yè)對機(jī)器容忍度的判別標(biāo)準(zhǔn)取之中位數(shù),未達(dá)到 95% 的部分,無論是 80% 乃至 90% 的準(zhǔn)確率,對模型生成容忍度極低的生產(chǎn)環(huán)節(jié)而言,二者沒有區(qū)別。
過去幾年,以計算機(jī)視覺、語音等為代表的 AI 技術(shù)領(lǐng)域取得了極大的成功,但受限于模型可解釋性差、通用性不強(qiáng)等弊端,AI 的大規(guī)模道路難以展開。
直至大模型技術(shù)出現(xiàn),它通過與人類的交互中不斷學(xué)習(xí),進(jìn)而獲得更好解決問題的能力。這當(dāng)中,行業(yè) Know-How 在生成內(nèi)容中起到關(guān)鍵作用,對醫(yī)學(xué)、金融、安全、法律等領(lǐng)域帶來了變革性的影響。
9 月 7 日,在 2023 騰訊全球數(shù)字生態(tài)大會- Techo 騰訊科學(xué)家專場上,論壇聯(lián)手 CSIG 前沿探索俱樂部及新基石科學(xué)基金會,邀請了騰訊各大實驗室科學(xué)家及“科學(xué)探索獎”獲獎人,聚焦科學(xué)前沿探索和技術(shù)應(yīng)用,以對話的形式,分享最新的落地成果。
大模型技術(shù)探索和落地方興未艾,一個業(yè)界共識是,大模型深入行業(yè),與各個領(lǐng)域結(jié)合,在激發(fā)生產(chǎn)力的同時,對原有生產(chǎn)鏈條也將帶來顛覆性的影響,從底層出發(fā)向上層邏輯的重塑,最終逐漸影響到技術(shù)研發(fā)、產(chǎn)品開發(fā)、服務(wù)消費等各個環(huán)節(jié)。
多位研究者在與雷峰網(wǎng)交談中提到,AI 技術(shù)正被用于生命科學(xué)、醫(yī)學(xué)制藥等研發(fā)創(chuàng)新中,越來越多人開始意識到,大模型為新科學(xué)規(guī)律的發(fā)現(xiàn)和 AI for Science 發(fā)展提供了更便捷的工具,有學(xué)者預(yù)測,未來十年內(nèi),科學(xué)范式將會被生成式 AI 重新定義。
距離科研更近的人,深知復(fù)雜科學(xué)問題背后的前沿與顛覆,而貼近產(chǎn)業(yè)側(cè)的開發(fā)者,更清楚 AI 技術(shù)在應(yīng)用階段的挑戰(zhàn)與機(jī)遇。大模型的出現(xiàn)對 AI for Science 有什么意義?又會對其發(fā)展帶來哪些影響?
能力越大,責(zé)任越大
“知識增強(qiáng)型”行業(yè)大模型已成為共識,是更接近人類大腦、釋放智能生產(chǎn)力的 AI 落地范式,將行業(yè)領(lǐng)域知識注入模型當(dāng)中,提升模型對知識的記憶和推理能力,可以有效填補(bǔ)基礎(chǔ)模型和場景之間的認(rèn)知鴻溝。
但在實際操作中,從業(yè)者往往會發(fā)現(xiàn)事情并沒有那么簡單:
一家從事醫(yī)療 AI 結(jié)合大模型技術(shù)服務(wù)商告訴雷峰網(wǎng),從 B 端側(cè)來說,醫(yī)療大模型可以劃分為診前、診中和診后三個階段,為了應(yīng)用不同階段會產(chǎn)生的問題,因此,醫(yī)療領(lǐng)域大模型在訓(xùn)練要求就很高。
比如說診前,過去醫(yī)生在看病時,需要事先了解許多患者相關(guān)的信息和問題,根據(jù)收集到的信息判斷大概的情況,這個過程耗時長且占用精力。有了大模型后,這部分工作可以借助 GPT 來完成,醫(yī)生通過向模型注入醫(yī)療數(shù)據(jù)和自己知識體系,GPT 可模仿醫(yī)生的習(xí)慣、提前跟患者了解病理信息。
但一個亟待解決的難題是:醫(yī)療環(huán)境中對深層語義的要求很高,患者在與醫(yī)生溝通時,很少涉及有指征性的專業(yè)醫(yī)學(xué)術(shù)語,患者有哪些癥狀是由醫(yī)生根據(jù)其描述來判斷,當(dāng)這件事交給模型去做時,它能否將患者的描述與對應(yīng)的病理問題對齊、做出正確的判斷,對構(gòu)建醫(yī)療大模型而言是個不小的挑戰(zhàn)。
醫(yī)學(xué)非常復(fù)雜,如何與大模型等為代表的 AI 技術(shù)相結(jié)合,成為學(xué)界和工業(yè)界共同關(guān)注的焦點。
在 Techo 騰訊科學(xué)家專場上,北京郵電大學(xué)信息與通信工程學(xué)院特聘研究員、2022 年“科學(xué)探索獎”信息電子領(lǐng)域獲獎人王光宇,與騰訊杰出科學(xué)家、騰訊天衍實驗室負(fù)責(zé)人鄭冶楓,分別從學(xué)術(shù)視角和工業(yè)視角,就對流行病研究、監(jiān)測及防控的技術(shù)思路的異同點,以及大模型、多模態(tài)在醫(yī)療領(lǐng)域的落地展開了探討和暢想。
鄭冶楓對話王光宇
為了解決醫(yī)療大模型“醫(yī)學(xué)專業(yè)度”和可信任問題,騰訊在醫(yī)療大模型中加入了天衍實驗室多年來在醫(yī)療領(lǐng)域積累的專業(yè) Know-How,涵蓋 285 萬醫(yī)學(xué)實體、1250 萬醫(yī)學(xué)關(guān)系等結(jié)構(gòu)化數(shù)據(jù),基本可覆蓋 98% 的醫(yī)學(xué)知識。
鄭冶楓指出,通過把專業(yè)知識給到模型,讓模型推理時候參考這些知識,比如在患者提問的問題里,采用自然理解語言技術(shù),自動提取一些相關(guān)的疾病,相關(guān)的藥品,在數(shù)據(jù)庫里將相關(guān)知識給到模型,可以讓模型去做更準(zhǔn)確的問答。
同時,打造高質(zhì)量、專業(yè)的醫(yī)療大模型,對于提升科學(xué)抗議的準(zhǔn)確性也具有重要作用。此前,王光宇和團(tuán)隊在研究中發(fā)現(xiàn),通過預(yù)訓(xùn)練大模型的技術(shù),構(gòu)建一個通用的蛋白質(zhì)相互作用的框架,可以有效計算病毒蛋白質(zhì)對人體的親和力,從而更好地預(yù)測病毒未來哪些可能的突變位點發(fā)生之后,對人的感染性會更強(qiáng)。
而伴隨著大模型深入具體場景、具體應(yīng)用和具體問題,它所展現(xiàn)出來的影響力不斷擴(kuò)大,其實踐和落地的邊界也得以進(jìn)一步拓寬。
清華大學(xué)計算機(jī)科學(xué)與技術(shù)系教授、2020 年“科學(xué)探索獎”信息電子領(lǐng)域獲獎人朱軍,與騰訊杰出科學(xué)家、騰訊安全玄武實驗室負(fù)責(zé)人于旸都是聚焦 AI 安全前沿研究的,面對新興技術(shù)風(fēng)口下的網(wǎng)絡(luò)安全發(fā)展趨勢及挑戰(zhàn),他們在對話中圍繞相關(guān)話題進(jìn)行了探討分析。
于旸對話朱軍
現(xiàn)階段的網(wǎng)絡(luò)安全威脅已呈現(xiàn)出全球化趨勢,不夸張的說,地球上每一分鐘都有還沒睡覺的攻擊者存在。如何防范AI 安全和它帶來的攻擊賦能問題?于旸提出,借助大模型技術(shù)加持,安全人員可以有效改變之前需要通過“投喂”大量相關(guān)數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練的難題,僅需要做少量的調(diào)整,即可實現(xiàn)指令的執(zhí)行。同時,借助外部工具并對處理結(jié)果進(jìn)行分析,可判斷是否需要再用別的工具,從而完成任務(wù)需求。
這樣一來,大模型的能力就越大,能夠改變的領(lǐng)域也越多,所肩負(fù)的責(zé)任也越大。
朱軍也表示,AI 提升了復(fù)雜的推理決策能力后,能夠在較少的數(shù)據(jù)標(biāo)注的情況下,通過不斷地交互和試錯,提升大模型自身能力,并調(diào)整策略,可實現(xiàn)對網(wǎng)絡(luò)安全的助力與增效,這將給整個安全行業(yè)帶來巨大的變化。
可以看到,以混元通用大模型為基座、結(jié)合行業(yè)大模型兩條腿走路,騰訊正對外釋放出大模型深入行業(yè)的服務(wù)能力,這也是大模型落地最為清晰的一個路徑。
新科學(xué),新范式
2018 年,AI for Science 的概念被提出,為了解決當(dāng)前科研范式下面臨的諸多難題,AI 技術(shù)成為輔助科學(xué)家的工具。
其中最具代表性的工作之一,是 2021 年提出的 AlphaFold2 ,開源僅一周的時間里,98.5% 的人類蛋白質(zhì)結(jié)構(gòu)被 AlphaFold2 所預(yù)測,而在此之前,全球多少頂尖科學(xué)家耗時數(shù)十年的努力,也只解碼了覆蓋人類蛋白質(zhì)序列中 17% 的氨基酸殘基。
又例如今天爆火的大模型和數(shù)據(jù)庫,可以有效提高處理海量數(shù)據(jù)、整合知識的效率。
自十五、十六世紀(jì)以來,科學(xué)發(fā)現(xiàn)以兩條路徑展開:一是基于第一性原理,對物理世界基本理論的探索;其二,則是以數(shù)據(jù)驅(qū)動的方式,對應(yīng)用基本規(guī)律的歸納。
受量子力學(xué)建立的影響,第一條路徑瀕臨瓶頸,多數(shù)科學(xué)問題在理論基礎(chǔ)上、可使用相關(guān)的物理模型進(jìn)行求解。進(jìn)入真實場景中,面對復(fù)雜環(huán)境里的實際問題,量子計算產(chǎn)業(yè)熱潮興起,應(yīng)用潛力大,但現(xiàn)實的問題是,其成長周期還很漫長。
中國科學(xué)技術(shù)大學(xué)教授、2022年“科學(xué)探索獎”數(shù)學(xué)物理學(xué)領(lǐng)域獲獎人朱曉波與騰訊杰出科學(xué)家、騰訊量子實驗室負(fù)責(zé)人張勝譽二人在交談中就提到,AIGC 對于量子科研或更廣范圍的科學(xué)會起到非常大、非常深遠(yuǎn)的影響。
張勝譽對話朱曉波
目前,雖然學(xué)界與工業(yè)界在關(guān)于量子計算研究與應(yīng)用的探索上有重疊,但受不同思維方式的影響,學(xué)界更關(guān)注實驗室場景下、將事情做得多好,做成;而工業(yè)界則更多考慮到研究能否落地,落地后所產(chǎn)生的價值、可規(guī)?;纳虡I(yè)價值等。
舉個例子,在實驗室驗證量子算法在某些問題上、最終會比經(jīng)典算法跑得更快,可能對學(xué)界而言是個有價值的工作,但對于具體產(chǎn)業(yè)應(yīng)用來說,距離能夠使用還有很長的一段距離要走。
而在以數(shù)據(jù)為驅(qū)動的第二條路徑中,小規(guī)模數(shù)據(jù)僅限于粗顆粒度的模擬與預(yù)測,要提升算法模型的能力,則離不開更大規(guī)模的數(shù)據(jù)支撐。
數(shù)據(jù)的重要性之于技術(shù)發(fā)展長期存在。但在國內(nèi),高質(zhì)量、經(jīng)梳理過的數(shù)據(jù)短缺是一大問題,特別是有效的中文數(shù)據(jù)更是稀缺。此外,隨著數(shù)據(jù)量級的增加,僅依賴傳統(tǒng)的數(shù)據(jù)處理方式,還會面臨計算代價激增、數(shù)據(jù)分析效果遞減的問題。
以多媒體通信為例,傳統(tǒng)多媒體應(yīng)用中的數(shù)字化信息數(shù)據(jù)量龐大,對存儲器的存儲容量、網(wǎng)絡(luò)帶寬以及計算機(jī)的處理速度等都有較高要求,很難完全通過增加硬件設(shè)施來滿足現(xiàn)實的需求。因此,基于腦電信號的智能信息通信成為一個熱門的研究方向。
清華大學(xué)電子工程系教授、2021年“科學(xué)探索獎”信息電子領(lǐng)域獲獎人陶曉明,與騰訊杰出科學(xué)家、騰訊多媒體實驗室負(fù)責(zé)人劉杉在對話中指出,通過對大腦在感知和信息處理機(jī)制方面的研究和理解,可以探索更加智能化的、高效的數(shù)據(jù)處理和傳輸方法。
與傳統(tǒng)通信場景不同,廣域場景下,受到資源限制、環(huán)境復(fù)雜等因素影響,通信需求也會受到一定的干擾,劉杉團(tuán)隊此前的工作經(jīng)驗,為制定特定場景的壓縮和傳輸標(biāo)準(zhǔn)可提供參考性建議;而在某些資源受限的場景下,壓縮傳輸正展現(xiàn)出越來越重要的角色。
陶曉明表示,在未來面向機(jī)器視覺的語義通信方面,結(jié)合視頻編碼和語義通信,將可實現(xiàn)特定場景下對關(guān)鍵語義信息的更好保護(hù),提高通信的智能化和效率。
劉杉對話陶曉明
今天,大模型之于技術(shù)變革和生產(chǎn)力解放的積極意義已經(jīng)顯現(xiàn),不局限于物理世界,AI 對生物世界的探索和理解也在生成。
一位從事智能產(chǎn)業(yè)研究的科研人員告訴雷峰網(wǎng),目前 AI 研究中所使用的許多數(shù)據(jù),是科學(xué)家們基于舊范式所得的數(shù)據(jù)基礎(chǔ),通過把大模型分布調(diào)整至可解決具體任務(wù)的參數(shù),并借助 Prompt 對數(shù)據(jù)再次收集,可獲得更適合大模型發(fā)展、AI 進(jìn)步的新數(shù)據(jù)。
可以預(yù)想,或許在不久的將來,將誕生一個吸收了海量科學(xué)訓(xùn)練數(shù)據(jù)的大模型,在理解科學(xué)知識的基礎(chǔ)上構(gòu)建出新的假設(shè),產(chǎn)生新的科學(xué)發(fā)現(xiàn)的可能性,反哺科學(xué)研究,從而推動 AI for Science 進(jìn)一步發(fā)展。
仰望星空,腳踏實地
物理科學(xué)家狄拉克曾預(yù)言,尋求數(shù)據(jù)建模所需要的基本規(guī)律的任務(wù)已大體完成:困難只在于這些定律的應(yīng)用,得到的方程一般都太復(fù)雜而無法求解。
直至二十世紀(jì)五十年代,電子計算機(jī)投入使用,以及微分方程數(shù)值方法的出現(xiàn),人類自此實現(xiàn)了從基本原理出發(fā)解決實際問題的能力,并構(gòu)建起現(xiàn)代工業(yè)和技術(shù)賴以生存的基礎(chǔ)。
而今,人工智能技術(shù)的發(fā)展,AI for Science 作為一個正處于茁壯成長期的新的交叉學(xué)科,已經(jīng)成為科研范式的重要創(chuàng)新方向。
一項技術(shù)之所以能被賦予“變革”的重量,不能僅停留在實驗室階段,靠的是它的觸角得以延伸至各行各業(yè),解決具體的問題,在應(yīng)用階段激活生命力。
大模型之于 AI for Science 發(fā)展更是如此。
騰訊 AI Lab AI 醫(yī)療首席科學(xué)家姚建華在同北京大學(xué)理學(xué)部副主任、北京大學(xué)化學(xué)與分子工程學(xué)院教授、北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心研究員高毅勤的對話中舉了這么一個例子。
姚建華對話高毅勤
過去,新藥研發(fā)是一個漫長的過程。一項發(fā)表在 Drug Discovery Today 雜志的分析顯示,制藥巨頭平均每款新藥的成本高達(dá) 61.6 億美元,將一款新藥推向市場需要不少于 10 年的時間。但有了 AI 的幫助,不僅可以提升臨床試驗的效率和數(shù)據(jù)準(zhǔn)確性,還能更清晰的進(jìn)行病理分析,從而大幅提升新藥誕生的效率。
姚建華預(yù)測,人類疾病中特別關(guān)注的是蛋白,在可見的未來,針對蛋白來進(jìn)行藥物的設(shè)計以及疾病的診療,將是 AI 應(yīng)用落地創(chuàng)新的重要方向。這不僅需要科研人員對前沿技術(shù)保持強(qiáng)大的熱情、仰望星空,也需要如騰訊等工業(yè)界一同參與,腳踏實地,實現(xiàn)技術(shù)與產(chǎn)業(yè)的對接。
對此,高毅勤也表示,只有真正把基于大數(shù)據(jù)的,基于高精度的、高通量的科學(xué)計算的和基于由人工智能直接融合的實驗結(jié)合起來,才能更好地發(fā)揮 AI 在生命科學(xué)領(lǐng)域的重要作用。
科學(xué)研究的兩大根本目的,一是對于事物本質(zhì)的研究和探索,二是解決實際的問題。
依托于這一科學(xué)理念,騰訊成立了天衍實驗室、AI Lab 實驗室、多媒體實驗室、玄武實驗室和量子實驗室,圍繞醫(yī)療、AI、多媒體、安全和量子五大領(lǐng)域,與業(yè)內(nèi)頂級高校團(tuán)隊和研究機(jī)構(gòu)展開合作 ,共同探索底層及前沿技術(shù)創(chuàng)新及落地應(yīng)用的可能性。
以天衍實驗室推出的騰訊醫(yī)療大模型為例,該大模型當(dāng)前已具備文案生成、智能問答、病歷結(jié)構(gòu)化和檢索、影像報告、輔助診斷等,可嵌入到診前、診中、診后的醫(yī)療環(huán)節(jié)全流程中去,完成“醫(yī)療咨詢平臺+大模型”的升級,提高醫(yī)生的就診效率,同時也能進(jìn)一步做好患者的診后情況跟進(jìn)。
又比如 AI for Science 領(lǐng)域,在 2022 年 NeurIPS 上 ,騰訊 AI Lab 與多家高校聯(lián)合團(tuán)隊,獲得了第二屆 Open Catalyst Challenge(OCP)競賽冠軍,相較此前 MSRA 的冠軍方案,整體效果提升了 27.6%。
在 ICLR 2022 上,騰訊 AI Lab 提出了基于獨立 SE 等變模型的蛋白-蛋白交互系統(tǒng) EquiDock,首次實現(xiàn)直接預(yù)測旋轉(zhuǎn)平移和形變,突破了傳統(tǒng)對接軟件中耗時不準(zhǔn)的缺點,并將預(yù)測速度提升達(dá)到 500 倍。
每個行業(yè)有每個行業(yè)的難題,由于細(xì)分場景的數(shù)量難以統(tǒng)計,長期以來,提供算法、模型的 AI 公司往往難以洞悉每個行業(yè)自身的特殊場景需求。
為此,在量子計算研究領(lǐng)域,騰訊量子實驗室已構(gòu)建了包括組合優(yōu)化問題的容錯量子算法,中等規(guī)模含噪(NISQ)的量子算法,量子電路的優(yōu)化,量子噪聲的刻畫等量子算法和軟件在內(nèi)的量子布局。在此基礎(chǔ)上,還同化學(xué)、材料、制藥、金融等行業(yè)合作,通過經(jīng)典算法,AI,軟件開發(fā),數(shù)據(jù)庫構(gòu)建,工作流搭建,云平臺上的 SaaS 服務(wù)等多方面的理論和實踐研發(fā),加速在工業(yè)領(lǐng)域的落地。
中國科學(xué)技術(shù)大學(xué)教授朱曉波對此頗有共鳴,他在對話中指出,得益于騰訊在產(chǎn)業(yè)界的巨大優(yōu)勢,可以基于此找到更有價值的應(yīng)用場景,轉(zhuǎn)化成為量子計算機(jī)的算法,從而推動學(xué)術(shù)界努力提升量子計算的性能,在近期和遠(yuǎn)期算法兩方面,真正實現(xiàn)讓量子計算機(jī)逐步“用起來”。
仰望星空,不忘腳踏實地。
而今,騰訊帶著混元大模型而來,深入領(lǐng)域中去,可以期待,在不久的未來與生物科學(xué)、醫(yī)學(xué)、量子計算、安全、多媒體等研究相結(jié)合,率先打響了大模型之于新科學(xué)的競賽,這亦是對科學(xué)范式變革的關(guān)鍵性探索。
經(jīng)過數(shù)月的發(fā)展,雖然人們暫時還不清楚大模型在何種條件下可以實現(xiàn)能力“涌現(xiàn)”,例如到底需要多少神經(jīng)元、多少參數(shù),但相互作用已然出現(xiàn)。通過大模型研究,不僅可以成為解決復(fù)雜問題、提高計算效率的工具,更為探索 AI for Science 發(fā)展提供了系統(tǒng)性的借鑒思路。
(雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。