0
本文作者: 鄭佳美 | 2025-03-14 16:25 |
就在剛剛,那個(gè)曾經(jīng)開(kāi)源了首個(gè) MoE 模型的歐洲初創(chuàng)公司 Mistral AI 在沉寂一段時(shí)間之后又出新活。
Mistral 團(tuán)隊(duì)發(fā)布了一個(gè)號(hào)稱“全世界最好的 OCR”的產(chǎn)品 —— Mistral OCR,旨在將一些 AI 難以直接識(shí)別的粗糙且復(fù)雜的文件進(jìn)行整理,便于 AI 操作識(shí)別。
帖子一經(jīng)發(fā)出,評(píng)論區(qū)瞬間充滿了各種夸夸言論,但在一眾贊美聲中,也不乏一些真正用過(guò)產(chǎn)品的網(wǎng)友的理智發(fā)言。
就比如有網(wǎng)友對(duì) Mistral OCR 的產(chǎn)品能力表示認(rèn)同,但卻有點(diǎn)接受不了它的產(chǎn)品定價(jià),覺(jué)得有點(diǎn)太貴,并且期待中國(guó) AI 公司早點(diǎn)發(fā)布一個(gè)類似的開(kāi)源版本,把價(jià)格打下來(lái)。
同時(shí)也有網(wǎng)友親自上手,上傳掃描了手寫板的內(nèi)容,但最后識(shí)別出的文字結(jié)果正確率并不是很高。
除此之外,還有被 Mistral 所宣傳的“可以識(shí)別超多種語(yǔ)言”噱頭吸引過(guò)來(lái)的網(wǎng)友,但使用后卻失望的發(fā)現(xiàn)它無(wú)法識(shí)別自己所用語(yǔ)言。
盡管 Mistral OCR 目前還存在著一定的局限性,但它的出現(xiàn)確實(shí)是一次從字符識(shí)別到場(chǎng)景智能的跨越。
與傳統(tǒng)的 OCR API 不同,Mistral OCR 是一款多模態(tài) API,它不僅可以識(shí)別文本中是否嵌入了插圖或照片,還會(huì)為這些圖形元素創(chuàng)建邊界框,并將它們包含在輸出中。
從 Mistral AI 團(tuán)隊(duì)放出的 Demo 視頻可以看出,Mistral OCR 能夠?qū)D文混排的 PDF 文件轉(zhuǎn)換成結(jié)構(gòu)清晰的 Markdown 格式文件。
例如表格+數(shù)字的 PDF 組合。
PDF 圖片中數(shù)學(xué)公式的轉(zhuǎn)換。
PDF 宣傳圖片中的印地語(yǔ)。
拍得并不方正的論文照片。
甚至帶有水印的文字也可以輕松識(shí)別。
除了直觀的 Demo 外,Mistral AI 團(tuán)隊(duì)還列舉了 6 點(diǎn) Mistral OCR 的絕對(duì)優(yōu)勢(shì):
卓越的復(fù)雜文檔解析能力:Mistral OCR 在理解復(fù)雜文檔結(jié)構(gòu)方面表現(xiàn)出色,能夠精準(zhǔn)解析交錯(cuò)的圖像、數(shù)學(xué)公式、表格以及 LaTeX 等高級(jí)排版格式。這使其在處理包含圖表、圖形、公式和插圖的科學(xué)論文等富文本文檔時(shí)更具優(yōu)勢(shì)。
原生支持多語(yǔ)言與多模態(tài):Mistral OCR 自帶多語(yǔ)言和多模態(tài)處理能力,能夠靈活應(yīng)對(duì)不同語(yǔ)言以及多種類型的內(nèi)容,無(wú)需額外適配。
行業(yè)領(lǐng)先的基準(zhǔn)測(cè)試表現(xiàn):在多項(xiàng)行業(yè)基準(zhǔn)測(cè)試中,Mistral OCR 均取得優(yōu)異成績(jī),充分展示了其強(qiáng)勁的性能和高準(zhǔn)確度。
同類產(chǎn)品中處理速度最快:Mistral OCR 采用輕量化架構(gòu),處理速度遠(yuǎn)超同類產(chǎn)品,單節(jié)點(diǎn)每分鐘可解析高達(dá) 2000 頁(yè)文檔。無(wú)論在高負(fù)載環(huán)境還是大規(guī)模數(shù)據(jù)處理中,它都能保持高效運(yùn)行,確保穩(wěn)定性能。
創(chuàng)新性的“文檔即提示”結(jié)構(gòu)化輸出:Mistral OCR 率先引入“文檔即提示”概念,使用戶能夠直接使用文檔作為指令,以獲取更加精準(zhǔn)和定制化的結(jié)果。它還能輸出 JSON 等結(jié)構(gòu)化格式,便于與后續(xù)任務(wù)或自動(dòng)化流程銜接,實(shí)現(xiàn)更智能的內(nèi)容提取。
可選的自托管部署方案:針對(duì)數(shù)據(jù)隱私要求嚴(yán)格的企業(yè)或機(jī)構(gòu),Mistral OCR 提供自托管部署選項(xiàng),確保敏感信息始終存儲(chǔ)在本地基礎(chǔ)設(shè)施內(nèi),滿足合規(guī)性與安全性需求。
團(tuán)隊(duì)還將 Mistral OCR 將 Google Document AI、Azure OCR、Gemini 系列模型以及 GPT-4o 的產(chǎn)品性能進(jìn)行對(duì)比。
最終的結(jié)果表明,Mistral OCR 在總體準(zhǔn)確率、數(shù)學(xué)公式識(shí)別等方面表現(xiàn)優(yōu)異,特別是在 2503 版本中,各項(xiàng)指標(biāo)均大幅提升,達(dá)到了新的高度。
在多語(yǔ)言處理方面,得出的數(shù)據(jù)更是遠(yuǎn)遠(yuǎn)優(yōu)于 Google Document AI 和 Azure OCR。
Mistral AI 是一家位于法國(guó)的初創(chuàng)公司,憑借其 AI 助手 Le Chat 和多個(gè)基礎(chǔ)模型,已被官方視為法國(guó)最具前途的科技公司之一,并被認(rèn)為是唯一有潛力與 OpenAI 競(jìng)爭(zhēng)的歐洲企業(yè)。
Mistral AI 的三位創(chuàng)始人都擁有在全球頂級(jí)科技公司中積累的豐富 AI 研究經(jīng)驗(yàn)。首席執(zhí)行官 Arthur Mensch 曾在谷歌 DeepMind 部門工作,首席技術(shù)官 Timothée Lacroix 和首席科學(xué)家 Guillaume Lample 則曾是 Meta 的核心成員。憑借著強(qiáng)大的技術(shù)背景,Mistral AI 的創(chuàng)始團(tuán)隊(duì)帶領(lǐng)公司迅速發(fā)展。
值得一提的是,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))得知自 2023 年成立以來(lái),Mistral AI 在籌集資金方面取得了顯著成績(jī),目標(biāo)是將前沿 AI 技術(shù)普及給每個(gè)人,雖然這一目標(biāo)并未直接挑戰(zhàn) OpenAI,但它強(qiáng)調(diào)了公司對(duì)于 AI 開(kāi)放性的堅(jiān)定支持。
作為 ChatGPT 的替代品,Mistral AI 推出了聊天助手 Le Chat,并在 iOS 和 Android 上成功上線。在發(fā)布后僅兩周,Le Chat 的下載量便突破了 100 萬(wàn)次,并一度在 iOS App Store 中登頂法國(guó)免費(fèi)下載榜單。
除此之外,截至 2025 年 2 月,Mistral AI 已籌集了約 10 億歐元(約 10.4 億美元)的資金,其中包括幾輪股權(quán)融資和部分債務(wù)融資。尤其值得注意的是,在 2023 年 6 月公司發(fā)布首批模型之前,Mistral AI 就成功完成了創(chuàng)紀(jì)錄的 1.12 億美元種子輪融資,成為歐洲歷史上最大的一輪種子融資,當(dāng)時(shí)公司估值達(dá) 2.6 億美元。
參考鏈接:
https://mistral.ai/fr/news/mistral-ocr
https://x.com/MistralAI/status/1897694143180112096
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。