虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

DeepSeek开源DeepSeek-OCR:用视觉压缩新招,为长文本处理降本增效

2025-10-21来源:快讯编辑:瑞雪

近日,人工智能领域迎来一项创新成果——DeepSeek团队推出名为DeepSeek-OCR的模型,通过“上下文光学压缩”技术,为大语言模型处理长文档提供了高效解决方案。该模型突破了传统方法对算力和内存的高依赖,为海量文档处理场景开辟了新路径。

当前,大语言模型在处理数千字甚至更长的文本时,计算量呈指数级增长,导致算力成本飙升,成为制约其应用的关键瓶颈。DeepSeek团队从人类视觉系统获取灵感:人类阅读文档时,视觉系统能快速捕捉页面布局、段落结构等关键信息,并进行高效压缩。基于此,团队提出“视觉预处理”思路——将文本渲染为图像,通过视觉模型压缩后,再交由语言模型处理,从而大幅减少输入token数量。

DeepSeek-OCR的核心架构由两部分组成:DeepEncoder(深度编码器)和基于混合专家模型(MoE)的解码器。其中,DeepEncoder融合了SAM(Segment Anything Model)和CLIP(Contrastive Language–Image Pre-training)两种视觉模型架构。SAM擅长处理局部细节,通过窗口注意力机制捕捉分散的视觉特征;CLIP则依赖全局注意力机制,提取整体知识信息。两者通过16倍下采样的卷积模块衔接,形成“先局部后全局”的处理流程,有效解决了高分辨率图像处理中的内存溢出和token爆炸问题。

解码端采用DeepSeek自研的30亿参数混合专家模型,激活参数为5.7亿。该模型通过动态分配任务至不同专家网络,在保持规模可控的同时,实现了强大的文本还原能力。实验表明,在处理600至1,300个文本token的英文文档时,DeepSeek-OCR仅需64或100个视觉token即可完成处理。当压缩比低于10倍时,OCR解码精度达97%以上;即使压缩比达20倍,准确率仍维持在60%左右。

在OmniDocBench等实际应用场景测试中,DeepSeek-OCR的表现优于同类模型。例如,相较于GOT-OCR2.0(每页256个token)和MinerU2.0(每页超6000个token),DeepSeek-OCR以更少的视觉token达到了业界先进水平。模型通过训练包含图表、化学分子式、几何图形等多样化数据,具备了深度解析能力。例如,它能将报告中的图表转换为表格数据,将化学文献中的分子式输出为SMILES格式,甚至解析几何图形中的线段关系,为金融、科研、教育等领域提供了新的工具。

目前,DeepSeek已开源该模型的核心代码和权重。据技术报告披露,在生产环境中,单张A100-40G GPU每日可处理超20万页文档数据。不过,模型仍存在局限:当压缩比超过10倍时,性能会因信息损失或图像分辨率降低而下降;在处理极端复杂版面时,解析能力有待提升。OCR任务与多轮对话理解存在本质差异,前者侧重感知和解码,后者涉及推理、记忆检索等复杂认知过程。技术报告指出,未来计划开展数字文本与光学文本交错的预训练实验,并评估长上下文检索的准确性。

尽管如此,DeepSeek-OCR为视觉与语言模态的融合提供了新思路。传统方法通常将两者作为独立输入处理,而该模型表明,视觉与语言可互为信息压缩和解压的媒介。基于这一范式,未来或可探索将多轮对话历史渲染为图像,以更低成本管理更长的对话;或将海量知识库压缩为视觉索引,提升知识检索效率。

DeepSeek开源3B小模型DeepSeek-OCR,以“光学压缩”探索文本处理新路径
就在刚刚,DeepSeek 开源了一个 3B 模型 DeepSeek-OCR。 简言之,DeepSeek-OCR 表面上是个 OCR模型,但实际上是在探索一个更宏大的命题:能否用视觉模态作为 LLM 文本信…

2025-10-21

格力为员工发放TOSOT G7手机:由魅族设计生产 底层系统锁定无法刷Flyme
快科技10月20日消息,据媒体报道,多名网友发帖称格力给员工发了手机。一位员工表示,这次发的手机挺好的,内存高,支持5G,感谢公司投喂格力手机,不仅是福利更是底气。据悉,格力给员工发的手机型号是TOSOT …

2025-10-21

2025上半年全球智能眼镜出货增64.2%,2029年或破4000万台中国增速居首
【环球网科技综合报道】10月21日消息,市场研究机构(IDC)发布报告显示,2025上半年,全球智能眼镜(AI眼镜)市场出货量达406.5万台,同比增长64.2%。 IDC预计,到2029年全球智能眼镜市场出…

2025-10-21

REDMI K90 Pro Max外观配置全揭秘,10月23日登场,高端化里程碑之作来了
这不,近日小米官方正式宣布,REDMI 旗下首款 Pro Max 新机来了! 日前,官方公布了 REDMI K90 Pro Max的真机外观照。 不止如此,REDMI 红米手机官微公布了 K90 Pro …

2025-10-21

谷歌邀15名Pixel“超级粉丝”提前尝鲜,参与Pixel 11新机测试并签保密协议
IT之家 10 月 21 日消息,谷歌发文,宣布将邀请 Pixel 手机“超级粉丝(Superfans)”提前体验其下一代智能手机,要求粉丝们在申请表格中展示“对于品牌的熟悉程度和热情”,以争取参与新品测试的…

2025-10-21

华为Mate 80系列多型号完成备案 11月或携鸿蒙盛典亮相 快充配置有差异
据微博用户数码闲聊站透露,华为Mate 80系列标准版已经完成备案,提供了黑/白/青绿三种配色。据央视透露,由中央广播电视总台倾力打造的大型直播晚会《鸿蒙星光盛典》将在11月28日启幕,以一场科技盛典展现中国…

2025-10-21

宇树科技H2仿生人形机器人亮相:180cm高会跳芭蕾,仿生人脸设计引关注
宇树此前在8月19日就对这款产品进行了预热,当时海报展现了一款新机器人的剪影,身高180厘米,并配文31 jointDOF(6*2+3+7*2+2),即具备31个关节自由度。 9月26日,宇树创始人、CE…

2025-10-21

苹果未来将在内地上线eSIM快速转换功能,国行iPhone Air用户换机更便捷
10 月 20 日消息,苹果无线软件技术与生态系统副总裁 Arun Mathias 及无线技术团队的 Anjali Jotwani在接受“爱范儿”采访时,透露未来苹果将会在中国大陆推出 eSIM 快速转换功…

2025-10-20

Backblaze十余年追踪:现代机械硬盘寿命延长,故障率降低至旧款三分之一
他们指出:“与前两次分析相比,我们在硬盘故障发生的年龄分布和故障率峰值上都观察到了相当显著的偏离。” IT之家注意到,Doyle 和Patterson 在文中写道:“这不仅是硬盘寿命上的重大提升,更是我们首…

2025-10-20

宇树科技Unitree H2仿生机器人亮相:180cm身高70kg体重,探索服务新可能
2025年10月20日,宇树科技官微正式发布Unitree H2仿生机器人,高180cm,重70kg,“为安全和友好地服务大家而生。”宣传视频显示,Unitree H2仿生机器人可以灵活地跳舞、走路、练舞。…

2025-10-20