虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

DeepSeek开源3B小模型DeepSeek-OCR,以“光学压缩”探索文本处理新路径

2025-10-21来源:快讯编辑:瑞雪

DeepSeek 团队近日开源了一款名为 DeepSeek-OCR 的 30 亿参数模型,通过创新的“光学压缩”技术,在保持高准确率的同时大幅降低文本处理所需的计算资源。该模型将视觉模态引入文本信息处理领域,为解决大语言模型(LLM)处理长文本时的计算瓶颈提供了新思路。

传统 LLM 在处理长文本时面临计算复杂度平方级增长的难题——序列长度每增加一倍,算力消耗将呈四倍增长。DeepSeek-OCR 的突破性在于将文本转换为图像进行压缩处理:通过视觉模态的“光学压缩”,模型用更少的视觉 Token 承载相同信息量。实验数据显示,该技术可实现 7-20 倍的 Token 压缩率,在 10 倍压缩下 OCR 准确率超过 97%,即使压缩 20 倍仍能保持 60% 准确率。

模型架构由编码器 DeepEncoder 和解码器 DeepSeek3B-MoE 组成。DeepEncoder 采用 SAM-base(8000 万参数)与 CLIP-large(3 亿参数)的串联结构,前者负责局部特征提取,后者进行全局信息整合。中间嵌入的 16× 卷积压缩器可将输入图像的 Token 数量大幅削减,例如 1024×1024 图像经处理后,进入全局注意力层的 Token 从 4096 个降至数百个。这种设计使模型既能处理高分辨率输入(支持 512×512 至 1280×1280 多分辨率),又有效控制了内存开销。

解码器部分采用混合专家(MoE)架构,64 个专家中激活 6 个,配合 2 个共享专家,实际激活参数约 5.7 亿。这种设计使 30 亿参数规模的模型兼具 300 亿参数模型的表达能力与 50 亿参数模型的推理效率。在 OmniDocBench 基准测试中,使用 100 个视觉 Token 的 DeepSeek-OCR 表现优于 GOT-OCR2.0(每页 256 个 Token),使用 800 个 Token 时则超越 MinerU2.0(平均每页超 6000 个 Token)。

数据构建方面,团队从互联网收集了 3000 万页多语言 PDF 文档(中英文占 2500 万页),通过粗标注(fitz 提取)和精标注(PP-DocLayout 等模型生成)结合的方式构建训练集。针对小语种数据,创新采用“模型飞轮”机制:先用版面分析模型检测文本区域,再用生成的数据训练 GOT-OCR2.0,最后用训练好的模型标注更多数据,形成数据生成闭环。模型还整合了 300 万条 Word 文档数据以提升公式识别能力,以及 2000 万条场景 OCR 数据(中英文各半)增强自然图像解析能力。

该模型不仅具备基础 OCR 功能,更实现了对复杂图像的结构化解析。通过统一提示词,可自动提取金融图表数据、转换化学结构式为 SMILES 格式、解析几何图形并生成密集描述。在 STEM 领域(如化学、物理、数学),这种能力可显著提升符号和图形密集型场景的处理效率。

研究团队还提出了一个颇具前瞻性的设想:通过光学压缩模拟人类遗忘机制。具体方案是将历史对话内容渲染为图像,通过逐步压缩图像尺寸实现信息模糊化——近期内容保持高分辨率,久远内容自然淡化。这种设计理论上可支撑“无限上下文”处理,使模型在保持近期上下文高保真的同时,降低历史上下文的计算资源占用。

目前,DeepSeek-OCR 已开源原生分辨率的 Tiny(64 Token)、Small、Base、Large 四档模式,以及动态分辨率的 Gundam 模式。在实际生产环境中,单块 A100-40G 显卡每日可生成超 20 万页训练数据,20 个节点(160 块 A100)的集群日处理量可达 3300 万页。团队强调,当前成果仅是起点,后续将开展数字-光学文本交替预训练、“大海捞针”测试等系统性研究,以全面验证光学压缩技术在上下文处理中的潜力。

苹果小米新机首月销售亮眼:iPhone 17与小米17齐头并进创佳绩
IT之家 11 月 15 日消息,市场调查机构 CounterPoint Research 昨日(11 月 14 日)发布博文,基于最新中国智能手机周度销量追踪报告,苹果与小米凭借各自的旗舰新品,在上市首月的…

2025-11-15

华为Mate X7或本月登场 首发20GB超大内存 配色丰富性能强劲
11月份的机圈将会是华为的主场,不仅新一代的直板旗舰华为Mate80系列会震撼亮相,还会有迭代的大折叠屏手机华为Mate X7发布。@定焦数码爆料,华为Mate X7将会首发定制20GB超大内存,这是华为史…

2025-11-15

苹果联名iPhone Pocket:争议中售罄,高价能否续写品牌忠诚传奇?
苹果与日本时尚品牌三宅一生日前联名推出的iPhone Pocket(iPhone 口袋)11月14日正式开售,1299元至1899元的定价引发全网热议,成为科技圈与时尚圈跨界合作的又一争议焦点。尽管争议不断,…

2025-11-14

iPhone 17系列上市两月中国市场激活破千万,配置亮眼预售火爆
2025年11月14日,知名数码博主“数码闲聊站”爆料称,iPhone 17系列于本周完成中国市场激活超1000万台。 据了解,iPhone 17系列于2025年9月10日苹果秋季发布会推出,含标准版、Air…

2025-11-14

中芯国际三季度业绩亮眼:月产能破百万,全年收入或创新高
赵海军指出,中国区收入的显著增长主要受益于国内产业链自主化进程加快,为应对客户紧急需求,公司及时优化了产能分配策略。赵海军补充表示,在当前国内企业加速替代海外供应链的背景下,公司长期合作的客户成功把握了市场机…

2025-11-14

iPhone17系列销售势头猛 本周国内激活量或冲破1000万台大关
【CNMO科技消息】11月14日,据数码博主爆料称,iPhone17系列国内激活量将于本周突破1000万台。截至11月2日,该系列在国内的激活数量已突破825万台,其中iPhone 17 Pro Max约3…

2025-11-14

小尺寸也有大能量!vivo X300全方位体验测评
测试中平均帧率为61帧,5% Low帧为60帧,全程几乎没有变化——小屏机的游戏性能完全不需要担心。 续航测试,vivo X300从100%到20%的电量区间内连续运行了6小时54分,对于小尺寸机型来说是合…

2025-11-14

2025年游戏手机大比拼:OPPO Find X9、红魔10 Pro、一加13谁更胜一筹?
如果你是追求极致游戏体验,对游戏性能、续航和散热都有极高要求的重度游戏玩家,那么 OPPO Find X9 系列是你的首选。 而如果你想要一款配置较为均衡,在游戏性能、屏幕显示和续航等方面都有不错表现的手机…

2025-11-13

华为PC业务双线并行:鸿蒙PC加速突破,智选PC延续Windows生态
11月13日消息,虽然有了鸿蒙PC,但华为似乎短期并不想放弃Windows系统。 有博主给出的消息显示,华为在PC业务上仍将维持“鸿蒙PC”与“智选PC”双线并行的策略,短期内不会放弃基于Windows系统的…

2025-11-13