0
本文作者: 二維馬曉寧 | 2025-09-16 20:36 |
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)) 9月16日消息,夸克將其訓(xùn)練健康大模型的醫(yī)師考試測(cè)試集悉數(shù)公開(kāi),這是國(guó)內(nèi)首個(gè)覆蓋全階段醫(yī)師考試的大模型測(cè)試集。
據(jù)了解,前不久夸克健康大模型成功通過(guò)中國(guó) 12 門(mén)核心學(xué)科的主任醫(yī)師筆試評(píng)測(cè),并發(fā)布技術(shù)報(bào)告《QuarkMed Technical Report》,公開(kāi)了“主任醫(yī)師級(jí)”能力技術(shù)實(shí)現(xiàn)細(xì)節(jié)。通過(guò)公開(kāi)模型研發(fā)技術(shù)與醫(yī)師考試測(cè)試集,夸克旨在推動(dòng)AI與醫(yī)療相融合的進(jìn)一步發(fā)展。
此前國(guó)內(nèi)一直缺少一款時(shí)效性高、覆蓋面全的醫(yī)師考試測(cè)試集??淇吮敬喂_(kāi)的醫(yī)師考試測(cè)試集覆蓋執(zhí)業(yè)醫(yī)師、主治醫(yī)師、副主任醫(yī)師、主任醫(yī)師全階段考試,精選普通內(nèi)科學(xué)、普通外科學(xué)、婦產(chǎn)科學(xué)、兒科學(xué)等12門(mén)核心學(xué)科,共計(jì)約7600道題,真題部分均取自2024年最新考試。
該測(cè)試集將不同測(cè)試等級(jí)有效梯度化。初級(jí)考試以單選題、記憶類題目為主,隨著考試級(jí)別升高,多選題、案例分析題比例隨之升高,對(duì)模型的推理能力也要求越高。梯度化的測(cè)試集能為模型測(cè)試提供更明確的標(biāo)準(zhǔn),并能有效發(fā)現(xiàn)模型短板、推動(dòng)模型優(yōu)化升級(jí)。
壹生檢康 CEO 王強(qiáng)宇表示,該測(cè)試集讓創(chuàng)業(yè)團(tuán)隊(duì)少走很多彎路,豆蔻婦科大模型訓(xùn)練過(guò)程中遇到的關(guān)鍵難題是如何評(píng)判模型性能,“MedBench這些通用醫(yī)療基準(zhǔn)在婦科場(chǎng)景下適配性很差,無(wú)法準(zhǔn)確衡量模型真實(shí)水平。有了夸克這套專業(yè)測(cè)試集,我們不用在基礎(chǔ)素材上耗費(fèi)精力,能把更多資源投入到模型算法優(yōu)化、婦科場(chǎng)景深度適配這些核心工作上?!?/p>
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。