丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給黃楠
發(fā)送

0

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

本文作者: 黃楠 2023-05-23 18:53
導語:AI“進駐”圖像內(nèi)容安全領域,P圖詐騙能消停一點嗎?

文檔是重要的信息存儲載體之一,人們每天接觸和使用文檔的頻率也越來越高。相對應地,用戶對文檔處理和圖像內(nèi)容的安全要求逐漸提升,智能文檔技術面臨的挑戰(zhàn)也更大。

隨著 AI 行業(yè)邁入大模型時代,這個問題出現(xiàn)了新的解法:大模型與 OCR 結合,加上 SSL OCR 技術(使用 SSL 加密協(xié)議的 OCR 技術),在智能文檔識別性能、可解釋性和安全性等方面均有大幅提升,為文檔處理帶來了新機遇。

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

今年3月,上海靜安區(qū)警方接到了一則關于虛擬投資理財?shù)膱蟀福阂荒凶映鲑Y 300 余萬委托某二級股票市場項目的投資者幫其代操作投資。在此期間,該投資者時常會分享“個股走勢”“賬戶收益”的圖片或視頻給劉先生,但到了雙方契約期滿時,劉先生卻討要投資收益及本金無果、還被要求續(xù)簽協(xié)議。

經(jīng)查,該投資者實則是一名失信人員,此前所提供大量“賬戶收益”圖片,均是通過 P 圖偽造的。

AI技術的興起在許多領域極大地解放了人們的雙手,也帶來了新的安全隱患。圖像信息的造假是最常見的風險之一,AI圖像內(nèi)容安全也成為了圖像圖形領域關注的重點。

近日,中國圖象圖形大會(CCIG 2023)在蘇州舉辦,大會以“圖象圖形向未來”為主題,譚鐵牛、趙沁平、吳一戎、徐宗本等院士出席現(xiàn)場并作主旨報告。

其中,譚鐵牛院士就《視覺內(nèi)容生成與安全》進行主題報告分享,從人工智能內(nèi)容生成的研究背景及現(xiàn)狀出發(fā),介紹了近年來在內(nèi)容生成和取證方面取得的研究結果,就視覺鑒偽技術要點進行專門分享,并展望了未來的發(fā)展趨勢。

譚鐵牛提到,以大模型為代表的人工智能核心技術取得了新的突破,人工智能的廣泛應用也給人類社會帶來法律法規(guī)、道德倫理、社會治理等方面的挑戰(zhàn)。AIGC能夠讓“眼見能不為實,眼見不再為實”,內(nèi)容生成與內(nèi)容安全要統(tǒng)籌兼顧。

或許有人存在“幸存者偏差”的心態(tài),認為自己并不屬于AIGC“換臉”魔法的輻射對象,圖像安全與自己無關。事實上,除了人像,人們在工作中常見常用的各類文檔所產(chǎn)生的圖片,也是造假重災區(qū),如被篡改的資質證書、文案、聊天截圖等,常常被用于散播謠言、經(jīng)濟詐騙,開頭提到的理財詐騙使用的便是圖片篡改手段。

CCIG 2023舉辦期間,《文檔圖像智能分析與處理》高峰論壇引發(fā)了眾多業(yè)內(nèi)人士的關注。該論壇由中國圖象圖形學學會文檔圖像分析與識別專業(yè)委員會與合合信息聯(lián)合組織,由中國圖象圖形學學會常務理事、華南理工大學的金連文教授擔任主持人。

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

金連文主持《文檔圖像智能分析與處理》論壇

論壇邀請到了相關領域最頂尖的研究者們,包括中科院自動化所、北大、中科大的學術專家,以及華為等知名企業(yè)的技術代表,就文檔圖像處理技術的發(fā)展現(xiàn)狀及應用,AI圖像內(nèi)容安全面臨的挑戰(zhàn)、多模態(tài)大模型時代的行業(yè)機遇等議題展開了深入討論。


文檔處理智能化之路:

緣起百年之前,AI引發(fā)劇變

文檔就是各種合同嗎?其實不然,文檔涵蓋的載體遠比常人想象的寬泛,如紙張、物理表面、圖像、文件等含有文字符號的媒體都屬于文檔。近年來,隨著數(shù)字化轉型提速,AI 在文檔智能處理領域的落地,令許多原本手工化的文檔處理環(huán)節(jié)登上了效率“直升梯”。

有關文檔識別處理的研究始于百年之前。1929 年,德國學者 Tausheck 通過純光學技術研究,提出了首個 OCR 專利“光學字符識別”,此后OCR相關技術不斷發(fā)展,并被廣泛應用于文檔處理中。2013年前后,隨著深度學習技術的引入,文檔識別與理解技術也就此邁向以深度學習為主導的研究時期,Attention 機制等深度學習技術在文檔圖像處理領域的應用,使得文檔識別性能也得到了快速提升。

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

引用自劉成林《大模型時代的文檔識別與理解》報告主題分享

什么樣的文檔處理稱得上是“智能文檔處理”呢?從使用者的角度看,“智能”至少需要滿足自動從不同文檔中提取有效信息這個基礎,甚至達到“理解”文檔信息,輔助人們辦公、生活的層級。

在《文檔圖像智能分析與處理》論壇上,專家們從框架上劃定了“智能文檔處理”的技術范疇,包括文檔圖像分析與預處理、文檔解析與識別、版面分析與還原、文檔信息抽取與理解、AI安全、知識化等??梢园l(fā)現(xiàn),關于文檔圖像的工作處于整個流程的第一環(huán)節(jié),對文檔處理后續(xù)工作地質量與效率有著決定性的影響。

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

圖像預處理:

文檔智能化處理的重要開端

進入實際應用后,文檔圖像處理還面臨著諸多挑戰(zhàn)。文檔類型多樣化、產(chǎn)生了繁雜的版式與結構;受拍攝器材、背景環(huán)境等外部因素的影響,圖像時常存在噪聲和質量問題;圖文信息中的形變、陰影、摩爾紋等情況,也加大了技術識別和理解工作的難度。

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

劉成林就《人工智能大模型時代的文檔識別與理解》報告主題進行分享

論壇中,中國科學院自動化研究所副所長劉成林認為,總體上,當前文檔識別與理解研究向深度、廣度擴展,處理方法全面轉向深度神經(jīng)網(wǎng)絡模型和深度學習方法,識別性能大幅提升且應用場景不斷擴展。但當前技術在識別精度和可靠性、可解釋性、自適應性等方面存在明顯不足,還有形變解決、跨場景能力薄弱等很多技術問題有待解決。

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

劉成林專門提到,文檔圖像預處理等領域目前有很大的進展,挑戰(zhàn)也很多。這一觀點也引起了產(chǎn)業(yè)界專家的共鳴。合合信息智能技術平臺事業(yè)部副總經(jīng)理、高級工程師丁凱博士就合合信息在文檔圖像預處理方面的工作進行了分享。

丁凱指出,文檔圖像預處理的整體架構由 ROI 提取、干擾去除、形變矯正、圖像恢復、圖像增強這五個重要技術步驟組成。其中,形變矯正包括了對傾斜透視、彎曲的矯正,圖像恢復可用于解決陰影、摩爾紋干擾信息對圖像識別影響的問題。

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

舉個例子,當人們用手機拍攝下一本書的某個頁面時,受拍攝角度、文檔放置位置、抖動等因素的影響,可能會造成所拍攝的圖像有折疊彎曲的現(xiàn)象,需要進行矯正處理。合合信息采用基于位移場網(wǎng)絡學習方法的系統(tǒng)構架,可對形變文檔進行智能矯正,包括彎曲矯正與透視矯正,同時智能定位文檔邊緣,切除多余背景,自動“拉平”圖像,提升文檔內(nèi)容識別效率與質量。

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

另外,涉及有些不便導出的文件、圖片時,人們需要對著電腦屏幕拍照,可能產(chǎn)生嚴重的“摩爾紋”(屏幕紋),從而加大了識別和理解工作的難度,導致模型在處理文檔圖像時,出現(xiàn)識別精度差、分析結果不正確等情況。

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

因此,如果要對摩爾紋進行去除,首先需要從文檔背景中提取一個模塊,將圖像中的摩爾紋等干擾項進行提取,借助干擾去除模塊對摩爾紋進行消除后,再把原圖和去除干擾項的圖進行融合,從而就能獲得一張效果比較好的摩爾紋去除圖。

合合信息通過對文檔進行智能圖像處理,可大幅提升文檔掃描質量、文檔識別分析能力。目前,彎曲矯正、去摩爾紋、反光消除等多項技術已被應用于合合信息旗下“掃描全能王”等產(chǎn)品中。

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

如果說圖像的預處理能力影響的是文檔處理的效率,那么對于圖片中虛假信息的辨別,則關乎到使用者的安全和利益。面對文檔篡改、虛擬圖像識別等新的問題,AI 仍然是重要的突破口。


保障文檔圖像安全

研究者做了這些工作

一般情況下,篡改文本圖像的生成與檢測問題往往被認為是對立的。但在中國科技大學的謝洪濤教授看來,二者其實一個矛與盾的問題,密不可分、相輔相成。

謝洪濤認為,篡改文本圖像的生成方法能夠反映篡改文本圖像檢測方法的檢測性能;同時,篡改文本圖像檢測方法也能反映篡改文本圖像生成的效果,因此兩者只有共同進步才能實現(xiàn)矛與盾的良性發(fā)展。

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

引用自謝洪濤《篡改文本圖像的生成與檢測》報告主題分享

在過往的一些訓練方法中,針對不同的偽造方法所得到的檢測模型可能并不具備泛化性,為了構建一個通用的篡改文本檢測器,如何做到既保留場景文本檢測器的優(yōu)越性、并降低對數(shù)據(jù)量的依賴程度就十分重要。

謝洪濤提到,篡改文本檢測定義為多分類目標檢測任務,任務的檢測不應只擬合篡改文本區(qū)域,因此他們提出,通用檢測器的構建應該從一般場景文本向篡改文本檢測器的網(wǎng)絡修改策略,并基于頻域的特征提取器來降低網(wǎng)絡對數(shù)據(jù)量的依賴性。

而通過引入頻域或者其他域中對模型檢測的生成內(nèi)容進行特征感知,包括偽造區(qū)域的紋理區(qū)分、設計合理的偽造檢測算法、時間復雜度等等,可最終建立起一個攻防博弈的過程。

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

謝洪濤就《篡改文本圖像的生成與檢測》報告主題進行分享

產(chǎn)業(yè)應用中,面對文檔圖像內(nèi)容的安全問題,合合信息也進行了相應的部署,在其智能文字識別服務平臺推出了篡改檢測服務。

據(jù)合合信息丁凱博士介紹,過去技術人員通常會參考Exif信息來判斷圖片是否存在篡改主要問題,但這種方法容易出現(xiàn)誤判:圖片經(jīng)過PS,GMIP等圖像編輯軟件,但未篡改具體內(nèi)容,可能會誤判;圖片被篡改后,用第三方軟件或工具抹除Exif信息,也可能造成誤判。

基于此,合合信息研發(fā)了基于深度學習的圖像篡改檢測技術及相關系統(tǒng),融合SRM、BayarConv、ELA等方法提升 CNN Tamper Detector 性能,檢測 RGB 域和噪聲域存在痕跡的篡改。

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

丁凱就《智能文檔處理技術在工業(yè)界的應用與挑戰(zhàn)》報告主題進行分享

通過學習圖像被篡改后統(tǒng)計特征的變化,該系統(tǒng)智能捕捉圖像在篡改過程中留下的細微痕跡,可檢測出擦除重打印文本、重打印文本、復制、移動、拼接等多種篡改形式,讓人工智能準確識別出圖片篡改的不同類型,并進行針對性的處理,提升識別精度和場景通用性。目前,合合信息圖像篡改檢測技術已被銀行、保險、制造業(yè)等多個行業(yè)引入。


多模態(tài)大模型時代

智能文檔處理的挑戰(zhàn)與機遇

近半年來,大模型成為智能時代全新的基礎設施。對于大模型的討論,關注者們不應當只停留在用了多少張卡、龐大的參數(shù)量和增加了哪些新模態(tài),而是 AI 的能力如何應用到具體的產(chǎn)業(yè)中,比如借助大模型,讓文檔圖像智能分析與處理可以更好地處理跨模態(tài)信息,將文本、視頻、圖片等不同形式的信息進行融合,從而實現(xiàn)更加全面、深入的信息分析。

作為圖像圖形技術的重要應用場景之一,文檔圖像智能處理也應當積極擁抱大模型時代。北京大學教授鄒月嫻在論壇現(xiàn)場中提到,“在與文檔圖像處理技術密切相關的OCR領域中,專業(yè)化大規(guī)模的預訓練模型是可行的。大模型是一個大的趨勢,對于小團隊來說,做工具是一個非常好的方法?!?/p>

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

鄒月嫻就《視覺-語言預訓練模型及遷移學習方法》報告主題進行分享

深入產(chǎn)業(yè) AI,不可避免地會遇到更低頻、長尾的復雜場景和大規(guī)模協(xié)同的需求。這些具體場景的數(shù)據(jù)樣本少、數(shù)據(jù)分布不均,這也意味著企業(yè)在研發(fā)上也需要更高的成本,服務定制化程度也更高,通用性大模型的優(yōu)勢由此顯現(xiàn)。

在文檔圖像處理領域中,處于應用層的企業(yè)用戶往往要面臨復雜多樣的場景,這意味著企業(yè)需要調(diào)用多個 API,維護成本大、難度也較高。因此,企業(yè)更需要的是一個能覆蓋多元使用場景、具備專業(yè)行業(yè) Know-How 的垂直領域 OCR 大模型。

一個理想的設想是,企業(yè)既可以調(diào)用 OCR 大模型全部能力,也可以結合自身企業(yè)需求和特定場景,基于小型知識圖譜訓練自己的模型算法。對此,華為云 AI算法研究員廖明輝提出,垂直領域OCR大模型在數(shù)據(jù)層面,最關鍵的不是數(shù)據(jù)的數(shù)量,而是數(shù)據(jù)的多樣性。

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

廖明輝就《華為云OCR技術進展及實踐》報告主題進行分享

以銀行中常見的基金對賬單托管業(yè)務為例,市面上基金公司眾多,往往每家公司的賬單樣式都不相同,加上復雜的表格呈現(xiàn)形式,因此十分考驗 OCR 大模型對結構化信息的提取能力?;贠CR大模型之上,銀行就可以針對托管對賬單這一特定場景的結構化信息特性,訓練專用的提取算法。

這種基于垂直領域的大模型對專業(yè)知識數(shù)據(jù)的需求更高,丁凱也表示,很多算法可能在某一個數(shù)據(jù)集中表現(xiàn)很好,但換一個效果就大打折扣。因此,如何通過零樣本、小樣本等進行技術創(chuàng)新也是一個值得探索的點,“思考 OCR 領域的智能涌現(xiàn)是什么很重要?!倍P說。

劉成林也對OCR大模型做了一下系統(tǒng)性的總結,指出:大模型的特征表示、語言能力對于文檔處理的智能化發(fā)展非常關鍵。大模型技術與光學字符識別(OCR)技術的結合,能夠對海量數(shù)據(jù)進行理解、處理;不同任務的專用模型和學習算法,接下來仍然大有可為。

“大模型的可解釋性、安全度十分重要,還需要研究者們進行更為深入的探討。具體到實踐層面,大模型技術還有可觀的提升空間?!眲⒊闪痔岬剑瑥淖R別性能來看,大模型技術在場景文本、邏輯版面、文檔問答等方面還有很多工作可以做。

今天,大模型的準入門檻正在不斷降低,技術變革正在席卷更多的行業(yè),為文檔圖像智能處理帶來了新的機遇,一場關于耐力和實力的馬拉松較量已拉開序幕。


參考鏈接:

https://www.seagate.com/files/www-content/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf

參考資料(以下均為大會報告):

《人工智能大模型時代的文檔識別與理解》.劉成林

《視覺-語言預訓練模型及遷移學習方法》.鄒月嫻

《篡改文本圖像的生成與檢測》.謝洪濤

《華為云OCR技術進展及實踐》.廖明輝

《智能文檔處理技術在工業(yè)界的應用與挑戰(zhàn)》.丁凱

(雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

多模態(tài)大模型「卷」向智能文檔,只為解放打工人的雙手

分享:
相關文章

主筆

傾聽科技和商業(yè)的故事,關注AI人物、技術變革。 | 微信:finfl26est
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說