0
作者:馬蕊蕾 林杰鑫
編輯:林杰鑫
最近翻相冊的時候翻到3月份的一張圖片,恍惚間發(fā)現(xiàn)從事AI之后自己的閱讀量一直在暴漲。
大模型重構(gòu)了很多行業(yè)工作流中的思考角色,也導(dǎo)致在這個行業(yè)的人一直都有信息攝取焦慮癥。因?yàn)楦餍懈鳂I(yè)搞研究的人腦洞大開。比如斯坦福大學(xué)用AI扮演不同的人搞了個AI社會啟發(fā)清華大學(xué)用AI開游戲設(shè)計(jì)公司,后來就有AI模擬人類社會發(fā)展6000年,發(fā)現(xiàn)AI人類為了活下去會變得自私。這些都還好,看著挺趣味的也好理解,過家家嘛。
最頭疼的就是那些個鬼:AI成功編輯人類基因,AI學(xué)會預(yù)測等離子體撕裂推進(jìn)可控核聚變,AI設(shè)計(jì)了一套無需人類示范的歐幾里得平面幾何定理證明系統(tǒng)。(別看了,頭痛,偏偏這些讓我上課瞌睡的卻成了我的工作內(nèi)容。)
很長一段時間我都在測試各家的大模型讀論文的能力,自己摸索了一套prompt:
總結(jié)論文內(nèi)容,研究背景是什么,采用了什么方法論證,取得了什么積極性的突破,對比同類型研究有什么優(yōu)勢?將對普通人的生活產(chǎn)生什么影響?如果技術(shù)方法復(fù)雜,請用類比或比喻的手法輔助我理解。
這段話可以快速定位研究的目的和用途,同時了解這些研究會對咱這些平頭老百姓會有什么影響。問題在于,大部分論文動不動幾萬字到十幾萬字的,有很多各行業(yè)的專業(yè)術(shù)語,AI能讀,但給出來的結(jié)果往往是一個很空的大框架。更別說用比喻的手法解讀一些內(nèi)容了,因?yàn)锳I的理解不夠深入,也就不能做到用通俗易懂的話輔助理解.....
半年前我發(fā)現(xiàn)最好用的還是kimi,所以2個月時間我用他讀了1183萬字的論文,整個人的靈魂都升華了。當(dāng)然,人嘛總是喜新厭舊,過了半年時間了,這會兒我也想看看其他家AI做的咋樣,來一場橫評。于是我打開我跟kimi的聊天記錄打算看看以往遇到什么問題,然后就戴上了痛苦面具......
是的,看著過去的聊天記錄我想起來kimi只會用OCR識別字但不會讀圖,所以很多論文的統(tǒng)計(jì)圖kimi都無法識別,導(dǎo)致有些論文有大量曲線圖、數(shù)據(jù)圖的時候。kimi直接燈下黑睜眼瞎,像上面的圖屬于AI模擬人類社會發(fā)展1000代之后,人類性格轉(zhuǎn)變曲線,如果論文沒具體闡述,我是完全不知道如何變化的...也就無法獲取關(guān)鍵信息。
所以這次評測我打算找一個長文理解能力不輸kimi,然后又有圖文理解能力的,但最好還是國內(nèi)的,方便我隨時使用。
初階圖片理解測試
首先是來一輪簡單的圖片理解測試。
在這里做個免責(zé)聲明:大家都知道我這個人呢測試AI喜歡刁鉆。沒辦法,經(jīng)常有些AI大廠就喜歡拿大家用過的經(jīng)典測試題鉆漏洞,比如識別狗跟炸雞這題以前很火,有一天AI突然集體開竅了,然后有網(wǎng)友換了下圖片順序,AI又識別不出來了。(嗯,大伙兒自己琢磨)
所以下面這輪測試我本來打算用廣東2016年的高考語文題目來挑戰(zhàn)一下AI圖片閱讀理解,但我怕這東西被AI偷偷摸摸練過,所以兄弟靈機(jī)一動,給圖片打了一堆噪點(diǎn)。
這一輪就不欺負(fù)kimi了。來一輪已經(jīng)確定有識別圖片能力的大模型來一場皇城pk。阿里的通義千問、百度文心一言、字節(jié)豆包、騰訊元寶。
注意我這里用的是原圖測試,我發(fā)現(xiàn)通義可以準(zhǔn)確識別數(shù)字,但是無法深入解讀表情、或者臉上的巴掌、吻,為了確認(rèn)實(shí)驗(yàn)的嚴(yán)謹(jǐn),我又上傳了一張停車場的圖片,發(fā)現(xiàn)它是能準(zhǔn)確識別福特汽車的logo,所以也就不存在不能讀圖這一情況,而是他沒訓(xùn)練過。
這是豆包的表現(xiàn),連數(shù)字都讀錯了,那咱也就不繼續(xù)了.....
文心一言......雖然讀出了分?jǐn)?shù),但是后面我問他看到巴掌和吻了嗎.....這家伙回我一句“嘻嘻”,我&*%$#?!
說實(shí)話到元寶我已經(jīng)放棄了,因?yàn)樵谖矣∠笾?,文心一言、通義千問、豆包都比元寶早出至少半年,而且元寶在我這確實(shí)沒啥存在感。結(jié)果,兄弟咋回事?這就讀出來了,而且還是加了噪點(diǎn)的圖片???騰訊不聲不響憋了個大的,然后當(dāng)我問到這些表情特征的時候他還做了可能發(fā)生的情況的解讀。
所以第一場pk,元寶取得領(lǐng)先優(yōu)勢。
那么既然各家確定有讀圖能力,接下來就加大難度,上有圖文的長論文。
長文精讀能力測試
論文名:《An evolutionary model of personality traits related to cooperative behavior using a large language model》
這篇論文內(nèi)容,主要講了用大模型生成不同性格的AI,模擬人類社會發(fā)展1000代,最后AI居然集體變?yōu)樽运饺烁?,自然雜志上的新研究揭露,AI在不受約束的情況下,可能整體都會趨向于自私。
主要是論文中有一大坨的各種曲線圖,要想更好的理解AI人類為了生存做出的性格改變就必須結(jié)合曲線圖理解。
所以這里想看一下,各家大模型對于長文以及圖片的總結(jié)能力。鑒于kimi有優(yōu)秀的長文理解能力,所以這里還是拉上他來作為一個衡量各家質(zhì)量的標(biāo)桿。但這把不再是中國大模型內(nèi)戰(zhàn),而是拉上目前國外目前T0級別的claude,直接上強(qiáng)度。
Kimi
提示詞:總結(jié)論文內(nèi)容,闡述研究背景,研究方法以及成果,實(shí)驗(yàn)者提供什么數(shù)據(jù)支撐他的實(shí)驗(yàn)。
我先是讓kimi總結(jié)論文內(nèi)容大致了解詳情,得知這是一篇關(guān)于AI模擬人類社會發(fā)展和人類性格變化的論文。
于是我追問人類迭代的趨勢是什么,kimi也給出了解答,但這個解答說實(shí)話沒有將全文連貫起來讀。
在后續(xù)的追問中也沒體現(xiàn)出這張圖表的波動。而是大致概括為 先自私然后偏向合作然后又可能變自私,但這個可能就很致命,因?yàn)樵诘?00代的時候,所有AI是大幅度變自私。也就是kimi獲取的信息不準(zhǔn)確。
騰訊元寶
元寶我照例先問主要內(nèi)容,我覺得訓(xùn)元寶的估計(jì)沒少研究用戶閱讀習(xí)慣或者干脆就是一群有高效閱讀強(qiáng)迫癥的人練出來的。因?yàn)樗傻母袷街鞔畏置?,從研究背景、研究方法、?shí)驗(yàn)設(shè)計(jì)、結(jié)果分析、總體結(jié)論。感覺就像是讀書時拿了學(xué)霸同學(xué)的筆記。而且用什么模型進(jìn)行實(shí)驗(yàn)、關(guān)鍵數(shù)據(jù)包括哪些,都有呈現(xiàn)。這是同樣提示詞下,kimi所不具備的。
但相比于kimi,最大的差異點(diǎn)我認(rèn)為還是在迭代趨勢這里。元寶是能講出曲線發(fā)展的波動。在進(jìn)化過程中,初始階段,持續(xù)到大約第300代后,合作比例迅速上升,到第350代左右占比達(dá)到0.55,然后在第450代左右下降到約0.40。接著,合作比例反復(fù)增加和減少,到第850代左右達(dá)到最高值約0.75,之后迅速下降到0.15左右。
根據(jù)數(shù)據(jù)波動又總結(jié)出出在進(jìn)化過程中,AI人類的性格基因在二維空間中的分布顯示出多次轉(zhuǎn)變,反映了合作和自私性格特征的交替出現(xiàn)。也就是AI人類的進(jìn)化一直在自私和合作之間反復(fù)橫跳,并且給出了具體的時間周期。(歷史果然是個車輪啊~)
而且,我還發(fā)現(xiàn)它左下角居然多了一個按鈕——深度閱讀該文檔,一點(diǎn)進(jìn)去,元寶老爺今天我給您磕一個,此后承蒙不棄,多多帶我。
因?yàn)樗苯訉D表和內(nèi)容結(jié)合講述,把論文變成課件,以往我打開論文看到圖表人麻了,因?yàn)槲疫€得看小字去了解這是描述啥的圖表?,F(xiàn)在用元寶打開圖表,我人炸了,因?yàn)槲抑苯泳臀蛄恕?/p>
而且我懷疑騰訊是不是去哪里請來了金牌備課講師,整個ui界面的視覺設(shè)計(jì)很符合閱讀習(xí)慣,左邊有論文的大綱,正文部分配合著圖來看論文,如果不懂,還可以實(shí)時對內(nèi)容進(jìn)行提問,真的很懂我。
拉到底人家還擺了一個關(guān)鍵問題及回答,這玩意看得我虎軀一震。兄弟們,參加過答辯的應(yīng)該都知道這功能的含金量吧?這是元寶教授在跟你模擬畢業(yè)答辯呢,考試前老師在給你劃重點(diǎn)呢,還可以刷新不同的問題。
人家甚至?xí)φ撐倪M(jìn)行評價(jià),換句話說自己寫的論文上傳給元寶,元寶教你改論文,完事了還跟你模擬答辯,寶子哥,不僅看論文厲害,我發(fā)現(xiàn)估計(jì)寫論文和模擬答辯還有奇效。
通義千問
整體思路看起來不錯,開頭簡潔明晰的介紹了論文的研究重點(diǎn),正文從研究的特點(diǎn)和成果進(jìn)行展示,但是深究具體內(nèi)容,會發(fā)現(xiàn)不是很全面,有些模糊,讀完一席話,勝似一席話。
Claude-3.5
一眼看過去,Claude的回復(fù)真的很簡潔,主要概括了論文的一些要點(diǎn),沒有特別成體系,但不得不說可能因?yàn)樽謹(jǐn)?shù)少,我竟然看進(jìn)去了。但過于簡潔,看完之后,我就沒有然后了,對于我這個剛?cè)腴T學(xué)習(xí)的人來說,不太友好。
當(dāng)然,通義千問和Claude-3.5在內(nèi)容上也做到了元寶講的總結(jié)出具體的數(shù)值,不同的是,Claude-3.5能清晰知道具體結(jié)論對應(yīng)哪幅圖,這一點(diǎn)上通義千問沒有。但Clude3.5沒有像元寶那樣把圖放在那講,還得去翻圖片來回滑動,看起來很麻煩。
從kimi、通義千問、騰訊元寶和Claude3.5的測試中,我意外還發(fā)現(xiàn)kimi和騰訊元寶的交互設(shè)計(jì)做的很絲滑。當(dāng)提出問題得到相應(yīng)的反饋后,這兩家有一點(diǎn)非常Nice,點(diǎn)擊生成答案的右下角的分享標(biāo)識,他們都可以快速生成內(nèi)容的長圖或者鏈接。
其實(shí)通義千問,點(diǎn)擊分享也會有相應(yīng)交互,但是目前只能復(fù)制答案的鏈接,沒有生成圖片的功能,通義啊,這里可以改進(jìn)一下下。
除了論文總結(jié)能力,讀研報(bào)不知道各家表現(xiàn)怎么樣,我們再試一試,看看效果。
分析研報(bào)
接著扔一個《2024巴黎奧運(yùn)會熱度趨勢洞察》PDF,并加上幫我分析一下這份研報(bào),概括出最重要的信息,字?jǐn)?shù)不要超過500字。
通義千問
很簡單的總結(jié)了一段話,細(xì)看內(nèi)容只總結(jié)了平臺和品牌合作,概括不太全面。
騰訊元寶
這里元寶我又i了,總結(jié)了研報(bào)的核心觀點(diǎn),還從奧運(yùn)會熱度掃描、話題洞察、品牌洞察分別概括了具體內(nèi)容,很清晰。
如果作為一名短視頻運(yùn)營或者商家,你就會發(fā)現(xiàn)元寶的信息有多珍貴。首先他會跟你說主要熱點(diǎn)有哪些。緊接著又指出兩個熱度最高的社交平臺微博和抖音,其中微博是內(nèi)容量占了全網(wǎng)68.3%,抖音互動奧運(yùn)話題互動量占全網(wǎng)69.4%。
但元寶又指出,品牌方主要在小紅書進(jìn)行商業(yè)投放,原因是小紅書熱門話題更注重體育項(xiàng)目和運(yùn)動員,抖音則以愛國話題為主。同時從消費(fèi)者趨勢來看,小紅書女性用戶多,抖音男性用戶多,25~34歲是主要人群。這下消費(fèi)者畫像不就一下子清晰了?每個研報(bào)如果都能這么總結(jié),我一天能看100份。
重點(diǎn)是它的深度閱讀依舊可以總結(jié)重點(diǎn)信息還帶配圖的那種,每次精讀的尾聲部分,還能再來一波關(guān)鍵問題的解答。
Claude-3.5
中規(guī)中矩,很簡潔的概括了一些想要看到的信息。整體體驗(yàn)下來,元寶確實(shí)在長文精讀方面的能力更強(qiáng),在內(nèi)容和文本格式方面都很在線,我感覺它很懂用戶的閱讀使用習(xí)慣,深度閱讀模式的大綱、圖文搭配、實(shí)時對文章進(jìn)行提問的能力,用起來一整個都很舒適!
番外測試篇
當(dāng)然最近網(wǎng)上也很流行測AI理解梗圖的能力和數(shù)學(xué)邏輯推理,所以這里也測點(diǎn)網(wǎng)上大家都喜歡測的,看看各家的表現(xiàn)。
上傳一張表情包,問:這個表情包實(shí)際代表什么意思?
通義千問
能看出它有很認(rèn)真的去理解表情包,物理層面有了,缺了點(diǎn)化學(xué)反應(yīng),幽默和倦怠點(diǎn)題了。
騰訊元寶
元寶真是懂打工人的,直接明了的對準(zhǔn)一個情緒。
“在抱怨某個無法解決的問題”or“對某種情況感到無能為力”。
Claude3.5
這一波Claude讀出了很多種復(fù)雜的情緒,看上去比我更會形容日常的無奈。
接下來是簡單的數(shù)學(xué)邏輯推理,為了防止題目被AI訓(xùn)練過,所以我對同個圖形進(jìn)行順序顛倒的測試。
文心一言
這不,文心一言就漏出雞腳了,正向回答沒問題,反向回答卻是比正方形更簡單或與正方形相似......
通義千問正常通關(guān)。
元寶也正常通關(guān)。
插個題外話,我今天在用騰訊元寶的時候,也想看一下它實(shí)時聯(lián)網(wǎng)更新獲取最新信息的能力。原因是大部分AI雖然現(xiàn)在有聯(lián)網(wǎng)功能,但它一般搜索的都是一些陳年消息作為參考。
當(dāng)我試著搜索AI在義烏的應(yīng)用時,居然搜到了上周五自己寫的文章,并且元寶還對文章內(nèi)容進(jìn)行了概括,我順帶試了試其他家,目前只有元寶能搜到。
這次橫測,有一種感覺,各家大模型好像在去年的百模大戰(zhàn)之后,就變得有些懈怠。其實(shí)作為用戶,還挺想看各家卷來卷去的,這樣就會有更好用的產(chǎn)品幫我“打工”。
說真的,AI產(chǎn)品的優(yōu)勢在于持續(xù)進(jìn)化的過程,沒有永遠(yuǎn)的勝者,只有永遠(yuǎn)的創(chuàng)新者。
這是一場漫長的競爭,而更好的用戶體驗(yàn)是唯一不會變的法則。
(雷峰網(wǎng)(公眾號:雷峰網(wǎng)))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。