0
8月2日,lmsys官方在推特發(fā)布一則消息,恭喜DeepMind研發(fā)的Gemini 1.5 Pro 實驗版 (0801)在Chatbot Arena排名登頂,超越GPT 4o和Claude-3.5奪得第一。
這是繼今年3月Claude 3 “超大杯”O(jiān)pus版本短暫超越GPT-4以來,OpenAI第二次讓出Chatbot Arena的Overall ranking寶座。
Gemini 1.5 Pro 實驗版 (0801)在Chatbot Arena測試一周后。獲得了超過12,000個社區(qū)投票,在Chatbot Arena和Vision Leaderboard排名上均取得了第一名的好成績。之前說GPT-4o有刷分技巧,現(xiàn)在看起來Gemini 1.5 Pro可能也學到了這個技巧呢。
Gemini 1.5 Pro 實驗版(0801)不僅在綜合表現(xiàn)上極為突出,在各個細分領域上也有著出色的表現(xiàn)。它在數(shù)學方面排名前三,指令遵循排名前二,編碼排名前五,硬提示(英語)排名前五。
Gemini 1.5 Pro 實驗版(0801)具有強大的多語言能力,在中文、日語、德語、俄語方面均表現(xiàn)第一。
從總體勝率圖上,也能看出Gemini 1.5 Pro 實驗版 (0801)實力強勁,對陣 GPT-4o 的勝率為 54%,對陣 Claude-3.5-Sonnet 的勝率為 59%。
前OpenAI的開發(fā)者,現(xiàn)Google AI Studio的產(chǎn)品負責人Logan Kilpatrick火速轉發(fā),向大家宣布Gemini 1.5 Pro 實驗版(0801)目前在 LMSYS 的文本和多模式排名中均位居第一的好消息。
DeepMind的CEO Demis Hassabis也轉發(fā)了這條消息,祝賀Gemini 1.5 Pro 實驗版(0801)能夠在極具競爭力的榜單中拿下第一,并且宣布這一版本的已經(jīng)可以在 AI Studio上進行試用。
帶領研發(fā)Gemini的Jeff Dean也隨后轉發(fā),對此次實驗版本的Gemini 1.5 Pro突破1300+elo分數(shù)拿下排名第一的好消息感到非常自豪,也很期待未來能看到其他更好的模型。
聽聞這則消息,其他從業(yè)人員也紛紛發(fā)來祝賀。
也有不少人分享自己的試用體驗。大神elvis對在聊天機器人領域超越了 GPT-4o 和 Claude 3.5 Sonnet的Gemini 1.5 Pro非常感興趣。elvis分享了自己的測試全過程視頻,并總結道,Gemini 1.5 Pro強大的圖像和PDF提取能力給他留下了深刻的印象,Gemini 1.5 Pro有著和GPT-4o不相上下的視覺能力,也有Claude 3.5 Sonnet接近的代碼生成及PDF理解/推理能力。
有人認為Gemini 1.5 Pro在解決高級數(shù)學難題方面表現(xiàn)相當不錯。
也有人說Gemini 1.5 Pro在圖像識別植物和動物方面做得確實要比GPT 4o更好。
也有更多的人在期待Gemini 1.5 Pro這一版本的正式上線,希望能夠API實現(xiàn)Gemini 1.5 Pro的實際運用。
大家對Gemini 1.5 Pro這次發(fā)布的實驗版本有什么看法,歡迎評論區(qū)留言分享~雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。