虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

DeepSeek开源3B小模型DeepSeek-OCR,以“光学压缩”探索文本处理新路径

2025-10-21来源:快讯编辑:瑞雪

DeepSeek 团队近日开源了一款名为 DeepSeek-OCR 的 30 亿参数模型,通过创新的“光学压缩”技术,在保持高准确率的同时大幅降低文本处理所需的计算资源。该模型将视觉模态引入文本信息处理领域,为解决大语言模型(LLM)处理长文本时的计算瓶颈提供了新思路。

传统 LLM 在处理长文本时面临计算复杂度平方级增长的难题——序列长度每增加一倍,算力消耗将呈四倍增长。DeepSeek-OCR 的突破性在于将文本转换为图像进行压缩处理:通过视觉模态的“光学压缩”,模型用更少的视觉 Token 承载相同信息量。实验数据显示,该技术可实现 7-20 倍的 Token 压缩率,在 10 倍压缩下 OCR 准确率超过 97%,即使压缩 20 倍仍能保持 60% 准确率。

模型架构由编码器 DeepEncoder 和解码器 DeepSeek3B-MoE 组成。DeepEncoder 采用 SAM-base(8000 万参数)与 CLIP-large(3 亿参数)的串联结构,前者负责局部特征提取,后者进行全局信息整合。中间嵌入的 16× 卷积压缩器可将输入图像的 Token 数量大幅削减,例如 1024×1024 图像经处理后,进入全局注意力层的 Token 从 4096 个降至数百个。这种设计使模型既能处理高分辨率输入(支持 512×512 至 1280×1280 多分辨率),又有效控制了内存开销。

解码器部分采用混合专家(MoE)架构,64 个专家中激活 6 个,配合 2 个共享专家,实际激活参数约 5.7 亿。这种设计使 30 亿参数规模的模型兼具 300 亿参数模型的表达能力与 50 亿参数模型的推理效率。在 OmniDocBench 基准测试中,使用 100 个视觉 Token 的 DeepSeek-OCR 表现优于 GOT-OCR2.0(每页 256 个 Token),使用 800 个 Token 时则超越 MinerU2.0(平均每页超 6000 个 Token)。

数据构建方面,团队从互联网收集了 3000 万页多语言 PDF 文档(中英文占 2500 万页),通过粗标注(fitz 提取)和精标注(PP-DocLayout 等模型生成)结合的方式构建训练集。针对小语种数据,创新采用“模型飞轮”机制:先用版面分析模型检测文本区域,再用生成的数据训练 GOT-OCR2.0,最后用训练好的模型标注更多数据,形成数据生成闭环。模型还整合了 300 万条 Word 文档数据以提升公式识别能力,以及 2000 万条场景 OCR 数据(中英文各半)增强自然图像解析能力。

该模型不仅具备基础 OCR 功能,更实现了对复杂图像的结构化解析。通过统一提示词,可自动提取金融图表数据、转换化学结构式为 SMILES 格式、解析几何图形并生成密集描述。在 STEM 领域(如化学、物理、数学),这种能力可显著提升符号和图形密集型场景的处理效率。

研究团队还提出了一个颇具前瞻性的设想:通过光学压缩模拟人类遗忘机制。具体方案是将历史对话内容渲染为图像,通过逐步压缩图像尺寸实现信息模糊化——近期内容保持高分辨率,久远内容自然淡化。这种设计理论上可支撑“无限上下文”处理,使模型在保持近期上下文高保真的同时,降低历史上下文的计算资源占用。

目前,DeepSeek-OCR 已开源原生分辨率的 Tiny(64 Token)、Small、Base、Large 四档模式,以及动态分辨率的 Gundam 模式。在实际生产环境中,单块 A100-40G 显卡每日可生成超 20 万页训练数据,20 个节点(160 块 A100)的集群日处理量可达 3300 万页。团队强调,当前成果仅是起点,后续将开展数字-光学文本交替预训练、“大海捞针”测试等系统性研究,以全面验证光学压缩技术在上下文处理中的潜力。

格力为员工发放TOSOT G7手机:由魅族设计生产 底层系统锁定无法刷Flyme
快科技10月20日消息,据媒体报道,多名网友发帖称格力给员工发了手机。一位员工表示,这次发的手机挺好的,内存高,支持5G,感谢公司投喂格力手机,不仅是福利更是底气。据悉,格力给员工发的手机型号是TOSOT …

2025-10-21

2025上半年全球智能眼镜出货增64.2%,2029年或破4000万台中国增速居首
【环球网科技综合报道】10月21日消息,市场研究机构(IDC)发布报告显示,2025上半年,全球智能眼镜(AI眼镜)市场出货量达406.5万台,同比增长64.2%。 IDC预计,到2029年全球智能眼镜市场出…

2025-10-21

REDMI K90 Pro Max外观配置全揭秘,10月23日登场,高端化里程碑之作来了
这不,近日小米官方正式宣布,REDMI 旗下首款 Pro Max 新机来了! 日前,官方公布了 REDMI K90 Pro Max的真机外观照。 不止如此,REDMI 红米手机官微公布了 K90 Pro …

2025-10-21

谷歌邀15名Pixel“超级粉丝”提前尝鲜,参与Pixel 11新机测试并签保密协议
IT之家 10 月 21 日消息,谷歌发文,宣布将邀请 Pixel 手机“超级粉丝(Superfans)”提前体验其下一代智能手机,要求粉丝们在申请表格中展示“对于品牌的熟悉程度和热情”,以争取参与新品测试的…

2025-10-21

华为Mate 80系列多型号完成备案 11月或携鸿蒙盛典亮相 快充配置有差异
据微博用户数码闲聊站透露,华为Mate 80系列标准版已经完成备案,提供了黑/白/青绿三种配色。据央视透露,由中央广播电视总台倾力打造的大型直播晚会《鸿蒙星光盛典》将在11月28日启幕,以一场科技盛典展现中国…

2025-10-21

宇树科技H2仿生人形机器人亮相:180cm高会跳芭蕾,仿生人脸设计引关注
宇树此前在8月19日就对这款产品进行了预热,当时海报展现了一款新机器人的剪影,身高180厘米,并配文31 jointDOF(6*2+3+7*2+2),即具备31个关节自由度。 9月26日,宇树创始人、CE…

2025-10-21

苹果未来将在内地上线eSIM快速转换功能,国行iPhone Air用户换机更便捷
10 月 20 日消息,苹果无线软件技术与生态系统副总裁 Arun Mathias 及无线技术团队的 Anjali Jotwani在接受“爱范儿”采访时,透露未来苹果将会在中国大陆推出 eSIM 快速转换功…

2025-10-20

Backblaze十余年追踪:现代机械硬盘寿命延长,故障率降低至旧款三分之一
他们指出:“与前两次分析相比,我们在硬盘故障发生的年龄分布和故障率峰值上都观察到了相当显著的偏离。” IT之家注意到,Doyle 和Patterson 在文中写道:“这不仅是硬盘寿命上的重大提升,更是我们首…

2025-10-20

宇树科技Unitree H2仿生机器人亮相:180cm身高70kg体重,探索服务新可能
2025年10月20日,宇树科技官微正式发布Unitree H2仿生机器人,高180cm,重70kg,“为安全和友好地服务大家而生。”宣传视频显示,Unitree H2仿生机器人可以灵活地跳舞、走路、练舞。…

2025-10-20

红米K90系列来袭,K90 Pro Max配置惊艳,或成小米17强劲对手
上一代红米K80 Pro冲击高端,采用2K直屏,加入小米15同款直立长焦摄像头,还加入50W无线充电,首发价格也从K70Pro的3299元飙升至3699元。 最后,两款手机的配置都很强,价格也都很香,尤其…

2025-10-19