✍️ Gate 廣場「創作者認證激勵計劃」進行中!
我們歡迎優質創作者積極創作,申請認證
贏取豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000+ 豐厚獎勵!
立即報名 👉 https://www.gate.com/questionnaire/7159
📕 認證申請步驟:
1️⃣ App 首頁底部進入【廣場】 → 點擊右上角頭像進入個人主頁
2️⃣ 點擊頭像右下角【申請認證】進入認證頁面,等待審核
讓優質內容被更多人看到,一起共建創作者社區!
活動詳情:https://www.gate.com/announcements/article/47889
Unisound U1-OCR:首個工業級文件智能基礎模型 引領OCR 3.0時代
這是一則付費新聞稿。如有任何詢問,請直接聯絡新聞稿發布者。
Unisound U1-OCR:首個用於工業等級的文件智能基礎模型,開啟 OCR 3.0 時代
PR Newswire
2026 年 2 月 26 日(週四)晚間 11:10(GMT+9)3 分鐘閱讀
本文包含:
9678.HK
+1.93%
Unisound 公開 U1-OCR:首個工業等級文件智能模型,開啟 OCR 3.0 時代
北京市,2026 年 2 月 26 日 /PRNewswire/ —— Unisound 已正式推出其 Unisound U1-OCR,全球首個用於文件智能的工業等級基礎模型;這是一項突破性的發布,開啟 OCR 3.0 時代,並以五項核心優勢樹立新的產業標準:SOTA 表現、可驗證結果、開箱即用的功能、高效率部署,以及強健的適應性。
文件智能運用 AI,自動讀取、理解、判別數位化文件並擷取關鍵資訊。OCR 1.0 僅能啟用基本文字辨識,而 OCR 2.0 則加入了初步的版面理解能力。U1-OCR 對應 OCR 3.0,實現了量級躍進,突破僅限於版面辨識的範疇,提供深度語意洞察、自動文件分類以及商業層級資訊擷取——從「字元感知」轉向「文件認知」的變革性轉變。
作為 SOTA 等級的文件智能模型,U1-OCR 解決了傳統模型長期存在的瓶頸,即「辨識文字但無法理解版面」,使其能夠像人類專家一樣理解複雜文件。它率先採用「語意驅動 + 動態聚焦」策略:先將文件的標題層級結構與結構化中繼資料進行映射,再在需要時擷取內容,並建立語意地圖以辨識標題、圖表與文字之間的關聯——即便在雜亂的版面中亦然。其強化的空間對齊模組會利用位置信息,精準重建密集表格與混合文字-影像內容的文件結構,有效降低空間辨識錯誤。配備多標記預測(Multi-Token Prediction)技術與全任務強化學習,它將推理效率提升超過 80%,確保長文件的邏輯一致性。
透過多任務協同強化學習訓練,且同時針對語意與座標進行最佳化,U1-OCR 抑制空間幻覺以產生可靠輸出,並在多個主要權威基準上達成 SOTA 成果:在 OmniDocBench V1.5 取得 95.1 分,超越 GLM-OCR 與 Gemini-3-Pro 等領先模型;在 D4LA 的 F1 分數達到 90.8、在 DocLayNet 達到 95.9,於表格辨識與跨頁關聯方面表現突出;並在內部商業測試中,超越如 Gemini-2.5-Flash 與 Qwen-2.5-VL 等模型,且在醫療文件處理(例如入院與出院記錄)等場景中展現亮眼的表現。
圖:Unisound U1-OCR 於 OmniDocBench V1.5 的評測分數比較(PRNewsfoto/Unisound)
為真實世界的工業應用而打造,U1-OCR 具備四項關鍵能力,彌合「文件理解」與「商業行動」之間的差距。其專有的「座標-文字-語意」架構能夠進行像素級定位並實現完整證據可追溯性,使稽核流程透明且高效率。結合 Unisound 在醫療與金融領域的產業專業知識,它可針對 50 多種常見商業文件實現超過 99% 的分類準確率,並支援具備零樣本能力的跨領域邏輯驗證。它支援私有的本地部署(on-premise)與離線部署,同時提供高效率的文件處理,符合政府、醫療與金融等領域嚴格的資料隱私要求,並降低硬體成本。最重要的是,它在極端情境中提供穩定且高精度的表現——包含非標準照片、模糊文件、複雜排版與多語言文字——使企業不再依賴標準化文件格式。
在真實使用情境中經過驗證,U1-OCR 可實現擷取資訊的視覺化可追溯性、混合文件的自動分類;並能對雜亂版面進行智慧影像淨化,以及在保留完整結構的前提下,準確辨識複雜的巢狀表格。
U1-OCR 的推出,標誌著 AI 從單純的文字辨識演進到理解商業邏輯——這是 Unisound 邁向 AGI 的關鍵一步。透過將多模態文件作為知識輸入入口,Unisound 讓機器具備自主推理與證據可追溯能力,推動 AI 從感知智能邁向認知智能;並以建立能讀取、思考並像人類一樣解決複雜問題的一般智慧型代理(general intelligent agent)為願景,將每一份文件都變成通往 AGI 的踏腳石。
Cision
若要下載多媒體內容,請查看原始內容:
條款 與 隱私政策
隱私儀表板
更多資訊