0
8月2日,lmsys官方在推特發(fā)布一則消息,恭喜DeepMind研發(fā)的Gemini 1.5 Pro 實(shí)驗(yàn)版 (0801)在Chatbot Arena排名登頂,超越GPT 4o和Claude-3.5奪得第一。
這是繼今年3月Claude 3 “超大杯”O(jiān)pus版本短暫超越GPT-4以來,OpenAI第二次讓出Chatbot Arena的Overall ranking寶座。
Gemini 1.5 Pro 實(shí)驗(yàn)版 (0801)在Chatbot Arena測(cè)試一周后。獲得了超過12,000個(gè)社區(qū)投票,在Chatbot Arena和Vision Leaderboard排名上均取得了第一名的好成績。之前說GPT-4o有刷分技巧,現(xiàn)在看起來Gemini 1.5 Pro可能也學(xué)到了這個(gè)技巧呢。
Gemini 1.5 Pro 實(shí)驗(yàn)版(0801)不僅在綜合表現(xiàn)上極為突出,在各個(gè)細(xì)分領(lǐng)域上也有著出色的表現(xiàn)。它在數(shù)學(xué)方面排名前三,指令遵循排名前二,編碼排名前五,硬提示(英語)排名前五。
Gemini 1.5 Pro 實(shí)驗(yàn)版(0801)具有強(qiáng)大的多語言能力,在中文、日語、德語、俄語方面均表現(xiàn)第一。
從總體勝率圖上,也能看出Gemini 1.5 Pro 實(shí)驗(yàn)版 (0801)實(shí)力強(qiáng)勁,對(duì)陣 GPT-4o 的勝率為 54%,對(duì)陣 Claude-3.5-Sonnet 的勝率為 59%。
前OpenAI的開發(fā)者,現(xiàn)Google AI Studio的產(chǎn)品負(fù)責(zé)人Logan Kilpatrick火速轉(zhuǎn)發(fā),向大家宣布Gemini 1.5 Pro 實(shí)驗(yàn)版(0801)目前在 LMSYS 的文本和多模式排名中均位居第一的好消息。
DeepMind的CEO Demis Hassabis也轉(zhuǎn)發(fā)了這條消息,祝賀Gemini 1.5 Pro 實(shí)驗(yàn)版(0801)能夠在極具競爭力的榜單中拿下第一,并且宣布這一版本的已經(jīng)可以在 AI Studio上進(jìn)行試用。
帶領(lǐng)研發(fā)Gemini的Jeff Dean也隨后轉(zhuǎn)發(fā),對(duì)此次實(shí)驗(yàn)版本的Gemini 1.5 Pro突破1300+elo分?jǐn)?shù)拿下排名第一的好消息感到非常自豪,也很期待未來能看到其他更好的模型。
聽聞這則消息,其他從業(yè)人員也紛紛發(fā)來祝賀。
也有不少人分享自己的試用體驗(yàn)。大神elvis對(duì)在聊天機(jī)器人領(lǐng)域超越了 GPT-4o 和 Claude 3.5 Sonnet的Gemini 1.5 Pro非常感興趣。elvis分享了自己的測(cè)試全過程視頻,并總結(jié)道,Gemini 1.5 Pro強(qiáng)大的圖像和PDF提取能力給他留下了深刻的印象,Gemini 1.5 Pro有著和GPT-4o不相上下的視覺能力,也有Claude 3.5 Sonnet接近的代碼生成及PDF理解/推理能力。
有人認(rèn)為Gemini 1.5 Pro在解決高級(jí)數(shù)學(xué)難題方面表現(xiàn)相當(dāng)不錯(cuò)。
也有人說Gemini 1.5 Pro在圖像識(shí)別植物和動(dòng)物方面做得確實(shí)要比GPT 4o更好。
也有更多的人在期待Gemini 1.5 Pro這一版本的正式上線,希望能夠API實(shí)現(xiàn)Gemini 1.5 Pro的實(shí)際運(yùn)用。
大家對(duì)Gemini 1.5 Pro這次發(fā)布的實(shí)驗(yàn)版本有什么看法,歡迎評(píng)論區(qū)留言分享~雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。