新闻中心

DeepSeek新OCR系统震撼来袭!压缩率90%信息保真97%

2025-12-12
浏览次数:
返回列表

近日,deepseek正式发布全新ocr系统,使ai能够在不突破内存约束的前提下高效处理超长文档。其开源代码已托管于github:https://www.php.cn/link/9d55db9e54e6dfb6ae280528ee34a0a1 。该系统的核心创新在于——将文字内容视作图像进行压缩,相较直接处理原始文本,图像化表征显著降低计算开销。在确保97%信息完整保留的前提下,文档体积可压缩至原大小的十分之一。例如,一本百页级pdf经该系统处理后,所需token数量仅为原先的1/10,语言模型即可实现端到端精准解析。

DeepSeek OCR系统由两大核心组件协同构成:

一是图像编码模块 DeepEncoder,参数量达3.8亿,专用于将输入的文档图像解析为高度压缩的视觉token;
二是文本生成模块,基于 Deepseek-3B-MoE 架构微调而来,负责从视觉token中重建原始文字内容与文档结构。

技术层面,系统深度融合了Meta推出的 SAM(Segment Anything Model) 与OpenAI开发的 CLIP 模型:SAM承担细粒度局部区域分割任务,CLIP则提供跨模态语义对齐能力。二者之间嵌入一个16倍压缩单元,大幅削减视觉token总量。以一张1024×1024像素图像为例,初始生成4096个token,经压缩后仅剩256个,极大缓解CLIP模块的推理压力。在低分辨率场景下,单图仅需64个视觉token;高分辨率模式下亦不超过400个,而传统OCR方案通常需数千token才能完成同等精度识别。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

DeepSeek OCR不仅支持常规文字识别,还可精准解析图表、化学分子式、几何图形等复杂非文本元素。研究团队指出,系统能直接从上市公司财报中的折线图、柱状图中抽取结构化数值,并自动输出标准Markdown表格。在“深度解析模式”下,金融图表与几何示意图更可被重绘为矢量格式,同时完整保留图注、坐标说明及上下文标注。

基准测试结果表明,DeepSeek OCR在 OmniDocBench 综合评测中表现卓越:当仅使用100个视觉token时,性能已超越GOT-OCR 2.0在256 token下的表现;在800 token预算内,全面领先MinerU 2.0(后者每页平均消耗超6000 token)。其专属的 Gundam-M模式 在中英文混合文档识别任务中斩获最低编辑距离(Edit Distance)分数,达到当前最优水平。系统具备智能模式调度能力——面对简易演示文档自动启用64-token轻量模式;普通业务报告匹配约100-token配置;而面对排版密集的报纸类多栏文档,则激活“Gundam模式”,上限设为800 token。此外,还提供 Resize、Padding、Multi-page、Sliding 四种预处理策略,灵活兼顾多页文档的压缩效率与识别准确率。

Remover Remover

几秒钟去除图中不需要的元素

Remover 304 查看详情 Remover

DeepSeek OCR的训练数据规模极为罕见:总计投入三千万页PDF文档,覆盖近一百种语言。其中包含2500万页真实中英文资料、1000万张合成图表、500万条化学公式样本、以及100万幅几何图形图像。如此海量且高多样性的训练语料,赋予模型强大的跨领域泛化能力与跨语言鲁棒性,不仅能完美复现原始文档布局,输出结果还同步附带图文语义描述与内容摘要。

在当前主流多模态大模型架构中,文本上下文长度限制始终是制约长文档理解的关键瓶颈。DeepSeek另辟蹊径,跳脱传统token计数范式,以视觉token替代文本token作为语言模型的新输入载体,真正实现“边看图、边读文”的一体化感知。对研究人员而言,这相当于为AI配备了一块高性能“外接硬盘”——借助视觉压缩机制,模型的有效上下文长度近乎无界,也预示着未来AI架构或将彻底消融“文本理解”与“图像理解”的传统边界。

该模型一经开源,迅速引发全球技术社区高度关注,相关讨论迅速登上GitHub Trending、Hugging Face热门榜单及多个中文科技平台热搜榜。有开发者实测反馈:“太惊艳了!刚用这个新开源模型把400页PDF转成Markdown,全程不到4分钟!”另有AI从业者感叹:“震撼!中国DeepSeek再次打破天花板——整本《百科全书》竟能浓缩为一张高清图像!” DeepSeek OCR绝非一次简单的OCR工具升级,而是对机器如何感知、组织与利用信息的一次底层范式革新。

以上就是DeepSeek新OCR系统震撼来袭!压缩率90%信息保真97%的详细内容,更多请关注其它相关文章!


# 南宁网站推广系统优化  # 怎么做  # 最全  # 一键  # 图中  # 如何用  # 来袭  # 网络营销网络推广资费  # 武汉网站建设电话咨询  # 柱状  # 丽水爱采购seo排名  # 武胜县关键词优化排名  # SEO数据监控宝宝推荐  # 收费站营销推广视频方案  # 外贸独立网站怎样推广  # 推广国外约会网站  # 平顶山网站推广优化方案  # deepseek  # 会议纪要  # 开源  # 文档  # 大模  # 金融  # openai  # pdf  # ai  # 工具  # 硬盘  # 编码  # github  # go  # git  # markdown 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 选哪个折叠屏手机好  如何用ftp连接命令行  折叠屏有哪些手机  awful是什么意思  苹果ipad爱奇艺怎么投屏到电视  夸克还原排版是什么意思  路由器上的power按钮是什么意思  喇叭上POWER4欧是什么意思  夸克po什么意思  typescript什么意思  焊机上power指示灯亮是什么意思  春运抢票哪个平台好抢  如何使用程序编译 执行的命令  推特是什么软件国内可以使用吗  春运抢票哪里最火热  苹果16主打颜色有哪些  苹果16粉色还有哪些机型  双十一哪一天买比较便宜?  苹果16会有哪些更新  夸克解压什么意思  r中如何逐行执行命令  折叠屏手机为什么有黑点  本科一批和本科二批是什么意思  vi命令如何退出编辑模式  苹果16有哪些可以设置  typescript是什么时候出来的  typescript是什么类型的语言  网络光刻机是干什么用的  单身聊天app有哪些软件 2025最靠谱的单身交友软件推荐  win7旗舰版wifi怎么打开  win10电脑如何使用命令提示符  三菱变频器POWER是什么意思  如何查看bash内置的命令  望远镜上power是什么意思  哪些编程软件需用typescript  折叠手机内屏为什么会坏  路由器power灯一直亮是什么意思  为什么youtube音乐打不开  j*a怎么复制数组中  抖音GMV是什么_抖音GMV是什么意思  如何ping测试命令  1tb等于多少mb  怎么看手机是不是双模5g手机  固态硬盘如何显示  市盈率为负数是什么意思  ftp$如何执行宏命令  md5解密是什么意思  台机如何安装固态硬盘  东芝固态硬盘如何保修  为什么夸克流畅播失败 

搜索