虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

字节跳动新思考模型Seed-Thinking-v1.5技术揭秘,4月17日开放体验!

2025-04-14来源:ITBEAR编辑:瑞雪

近日,字节跳动旗下的豆包大模型团队揭晓了其最新思考模型Seed-Thinking-v1.5的技术细节,并宣布该模型将于4月17日通过火山引擎开放接口供用户体验。这一消息标志着字节跳动在自然语言处理领域迈出了重要一步。

Seed-Thinking-v1.5模型在多个领域展现出了卓越的性能。在数学推理方面,它在AIME 2024竞赛中取得了86.7的高分,与OpenAI的o3-mini-high模型不相上下。在编程竞赛中,该模型在Codeforces平台上的通过率达到了55.0%,接近Gemini 2.5 Pro的水平。在科学推理任务上,Seed-Thinking-v1.5也取得了77.3%的优异成绩,同样接近业界领先模型。而在通用任务中,人类评估显示其表现超过了DeepSeek R1达8%,能够覆盖多种场景需求。

Seed-Thinking-v1.5模型采用了MoE架构,总参数达到200B,但激活参数仅为20B,这使其在保持高性能的同时,具备显著的推理成本优势。与DeepSeek R1相比,该模型的单位推理成本降低了50%,实现了性能与效率的完美平衡。

为了提升模型的表现力,豆包大模型团队在数据处理策略上进行了优化。针对可验证数据,如数学和代码题目,团队通过百万级数据的三重清洗流程,保留了10万道高难度题目,并设计了答案整数化改造和离线沙箱验证等机制,确保模型能够输出真实的推理过程。而对于非可验证数据,如创意写作,团队则基于豆包1.5 Pro训练集,剔除低价值样本,并采用两两对比奖励法,优化生成质量。

团队还构建了全新的评测基准,包括超难数学数据集BeyondAIME,该数据集包含100道无答案题干的题目,旨在解决现有测试区分度不足的问题。这一举措不仅提升了模型的评测准确性,也为后续的优化提供了有力支持。

在奖励模型方面,团队提出了双轨奖励机制,以兼顾“对错分明”与“见仁见智”的任务。对于可验证任务,团队开发了两代验证器,从字符匹配升级为推理步骤逐行对比,确保了模型输出的准确性。而对于非可验证任务,团队则引入pairwise对比训练,通过大量“AB测试”捕捉人类对创意、情感等的隐性偏好,从而避免了“众口难调”的问题。这一双轨奖励机制不仅提升了模型的训练效率,也使其在不同场景下都能表现出色。

在训练方法上,Seed-Thinking-v1.5采用了“监督精调+强化学习”的双阶段优化策略。在监督精调阶段,团队基于40万高质量实例构建了长思考链数据集,并结合人工与模型协同筛选,确保模型能够“像人类一样思考”。而在强化学习阶段,团队通过三重数据引擎、算法创新以及在线数据适配技术,解决了训练不稳定、长链推理断层等问题,使模型能够在动态调整数据分布的过程中保持最佳训练状态。

最后,为了应对20B MoE(总参数200B)的复杂训练需求,团队对底层架构进行了优化。HybridFlow编程模型支持算法快速探索与分布式并行运行,流式推理系统(SRS)则通过“流式推理”技术解耦模型演进与异步推理,将训练速度提升了3倍。三层并行架构结合张量/专家/序列并行,动态均衡负载,基于KARP算法优化GPU算力利用率,为模型的高效训练提供了有力保障。

哈趣Q1 Pro投影仪:百元价位搭载哈曼音响,影音体验再升级
哈趣Q1 Pro投影仪背面是大面积的散热隔栅,接口和开关键都集中在最上部,云台底部电源接口使用了标准的8字尾插,内置电源变压器让哈趣Q1 Pro投影仪整体集成度更高,没有大块头的变压器拖累,无论是在家的摆位…

2025-10-23

舒福德S500睡眠智能体亮相,以数字生态革新开启全民睡眠健康新篇
作为麒盛科技旗下智能床品牌,自2005年自主研发智能电动床,开启探索智能睡眠体验:2017年推出全球首张智能床,初步实现睡眠数据的采集与分析;2022年作为北京冬奥会唯一智能床供应商,通过服务全球运动员,验证…

2025-10-22

小米17 Pro推送澎湃OS3.0.24.0内测更新 优化系统影像修复多项使用问题
【CNMO科技消息】CNMO注意到,小米近日已向具备升级权限的小米17Pro用户推送了版本号为3.0.24.0.WBLCNXM的正式版内测更新,此次升级主要聚焦于系统稳定性、硬件性能调校及影像功能优化。 本…

2025-10-22

OpenAI首款浏览器Atlas来袭:AI整合新体验,实测感受抢先看
AI 协助功能:在任何打开的文本输入框中输入内容时,ChatGPT 能提供实时修改建议和智能补全,帮你更高效地码字Agent(代理)模式:能让 ChatGPT 在浏览器中自主完成多步骤任务从今天开始,ma…

2025-10-22

小米YU7 GT纽北赛道再露面,量产在即,设计细节与动力性能引期待
近日,小米YU7 GT再次现身纽北赛道,整体已经接近量产状态,之前SU7Ultra上市后特别受欢迎,比大家预想的还火,这也让小米更确定要推出YU7 GT。 动力方面,参考SU7 Ultra 1548马力的最…

2025-10-22

AMD驱动优化显成效!RX 9070与RTX 5070实测对比,性能差距扩大至13%
Hardware Unboxed(HU)的最新测试结果,再次印证了这一说法:Radeon RX9070在最新的驱动和游戏补丁加持下,性能差距与竞争对手RTX 5070明显扩大。 即使加入各自的超分技术,R…

2025-10-22

华为Mate 70 Air或迎战iPhone Air:66W快充加持,配置亮点抢先看
值得注意的是,目前华为Mate 70 Air已上架电信终端产品库,有12GB+256GB和12GB+512GB两种配置,屏幕尺寸为6.9英寸,延续了华为Mate系列的中轴对称设计,镜头模组采用“奥利奥”设计…

2025-10-22

真我GT8 Pro评测:拒绝趋同,可换Deco与理光影调带来别样趣味
我们雷科技有幸提前上手了这款产品,接下来就跟我一起看看体验如何吧。 是的,你没听错,在整个行业都在鼓捣着千篇一律的非方即圆设计时,真我带来了不止一种、不止两种,而是整整四种不同的Deco设计,从经典圆形、方…

2025-10-22

汉印拍立得Z3:复古外观遇上便捷打印,玩法丰富还能“0废片”拍摄
关于汉印拍立得Z3的内容就说到这里,通过上面的文章内容,不难看出汉印拍立得Z3确实是一款在外观设计以及打印等玩法方面都挺有意思的拍立得产品,同时就算是不连接手机,也能实现“即拍即打”,并且支持调色、滤镜调节…

2025-10-22

国家广电总局首颁“便捷看电视”认证,认准标志选电视享便捷观影体验
IT之家 10 月 20日消息,国家广播电视总局今日宣布,国家广播电视总局广播电视规划院为首款符合认证标准的智能电视机颁发“便捷看电视”认证证书。这款率先通过认证的产品由康佳研发打造,即将正式上市销售。 作…

2025-10-21