中國AI科研成果持續(xù)創(chuàng)新高，多篇論文入選國際計算語言學(xué)年會ACL2024

本文作者： nebula

2024-08-13 15:04

導(dǎo)語：?當(dāng)?shù)貢r間8月11日至16日，為期6天的國際計算語言學(xué)年會（ACL2024）在泰國曼谷舉辦。

當(dāng)?shù)貢r間8月11日至16日，為期6天的國際計算語言學(xué)年會（ACL2024）在泰國曼谷舉辦。ACL是計算語言學(xué)和自然語言處理領(lǐng)域國際排名第一的頂級學(xué)術(shù)會議，由國際計算語言學(xué)協(xié)會組織，每年召開一次，2024年是第62屆會議。

清華大學(xué)、浙江大學(xué)、西安電子科技大學(xué)、螞蟻集團(tuán)、小米等國內(nèi)院校及互聯(lián)網(wǎng)企業(yè)均有論文被ACL2024收錄。比如螞蟻集團(tuán)有14篇論文被收錄，研究課題涉及自然語言處理、知識推理、大模型、知識圖譜等領(lǐng)域，自然其中5篇被主會（Main）收錄。

被主會（Main）收錄的論文“分解與蒸餾大語言模型用于語義搜索”，提出了一種混合型語義搜索模型D2LLM，通過分解大語言模型和從大語言模型中蒸餾知識，實(shí)現(xiàn)了雙編碼器的運(yùn)行效率與交叉編碼器的理解準(zhǔn)確性的折中。實(shí)驗(yàn)數(shù)據(jù)顯示，D2LLM在三項(xiàng)任務(wù)的指標(biāo)上超過了五個領(lǐng)先的基準(zhǔn)模型，特別是在自然語言推理（NLI）任務(wù)的性能至少提高了6.45%。

另一篇被被主會（Main）收錄的論文“構(gòu)建大規(guī)模schema約束的信息抽取語料庫”，提出了一個叫IEPILE的中英雙語IE指令語料庫，它包含約0.32B的tokens。這一研究通過收集和清洗33個現(xiàn)有IE數(shù)據(jù)集構(gòu)建了IEPILE，并引入基于schema模式的指令生成，構(gòu)建出大規(guī)模的語料庫。實(shí)驗(yàn)結(jié)果表明，使用IEPILE可提升LLMs在IE任務(wù)中，尤其在零樣本泛化抽取上的性能。

螞蟻另外兩篇被ACL2024主會收錄的論文，取得的研究成果分別是，降低了大模型的幻覺；以及提高了大模型的注意力，增強(qiáng)了大模型長下文的外推能力。

據(jù)了解，2024年，螞蟻集團(tuán)有近百篇AI學(xué)術(shù)論文被全球各頂級會議收錄，研究成果主要用于優(yōu)化大模型訓(xùn)練的性能，提高大模型的可靠性與可信度，持續(xù)降低AI訓(xùn)練成本，以推動大模型在各行業(yè)，尤其嚴(yán)謹(jǐn)行業(yè)中得以規(guī)模化落地應(yīng)用。如這與螞蟻“讓AI像掃碼支付一樣便利每個人的生活”的技術(shù)主張亦有直接關(guān)系。

《2023年中國科技論文統(tǒng)計報告》顯示，中國發(fā)表的高水平國際期刊論文數(shù)量和被引用次數(shù)均排在世界第一。2024年，喬治城大學(xué)安全與新興技術(shù)中心（CSET）的最新數(shù)據(jù)顯示，在人工智能最熱門的領(lǐng)域中，中國在一半以上的研究領(lǐng)域領(lǐng)先美國。這些數(shù)據(jù)表明，中國高校和企業(yè)的科研產(chǎn)出在數(shù)量和質(zhì)量上都在穩(wěn)步提升，在全球科研領(lǐng)域中占據(jù)越來越重要位置。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

nebula

運(yùn)營

發(fā)私信

當(dāng)月熱門文章

中國AI科研成果持續(xù)創(chuàng)新高，多篇論文入選國際計算語言學(xué)年會ACL2024

中國AI科研成果持續(xù)創(chuàng)新高，多篇論文入選國際計算語言學(xué)年會ACL2024