虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

快手开源6710亿参数多模态大模型,视觉推理能力升级引领新突破

2025-11-30来源:快讯编辑:瑞雪

快手近日正式开源了其最新一代多模态大模型Keye-VL-671B-A37B,这款基于DeepSeek-V3-Terminus架构的模型拥有6710亿参数,在视觉感知、跨模态对齐和复杂推理能力上实现了显著突破。通过系统化的预训练和后训练策略,该模型在通用视觉理解和视频理解领域展现出超越同类产品的性能表现。

在图像识别测试中,Keye-VL-671B-A37B展现出惊人的细节捕捉能力。当面对三张票据的识别任务时,模型不仅准确识别出文字和版式差异,更通过逻辑推理判断出其中仅有两张为电影票,第三张实为食品兑换券。这种超越表面识别的深度理解能力,源于模型对视觉元素与语义信息的精准关联。在视频理解测试中,该模型能精准捕捉"蓝色双层电车"等核心元素,并完整复现镜头运动轨迹和场景转换细节。

性能对比数据显示,在26项主流基准测试中,新模型在18项指标上取得领先成绩。特别是在STEM、推理、视频理解等复杂任务领域,其表现超越字节跳动Seed1.5-VL think和阿里Qwen3-VL 235B-A22B等前沿模型。这种优势得益于其独特的三阶段预训练体系:首阶段冻结视觉与语言模块,专注特征对齐;次阶段全参数训练;末阶段通过退火训练强化细粒度感知。整个过程仅使用300B高质量数据,相比其他动辄万亿级的数据规模,展现出更高的训练效率。

后训练阶段采用创新的混合数据策略,将指令数据与长思维链(Long-CoT)数据按特定比例融合。实验表明,这种组合使模型在保持指令响应能力的同时,显著提升复杂推理的稳定性。技术团队开发的严格数据筛选流程,有效过滤了冗余反思内容,确保思维链数据的精炼性。在强化学习环节,模型采用阿里Qwen3系列同源的GSPO算法,通过序列层建模提升训练稳定性,并配备专用Verifier模型验证推理逻辑,使答案准确率提升显著。

该模型现已在Hugging Face和GitHub平台开放下载,开发者可访问指定链接获取完整代码库。其视觉编码器继承自今年9月开源的Keye-VL-1.5模型,该80亿参数版本已支持128k tokens上下文扩展。技术文档显示,新模型在多模态数学数据集上的平均准确率提升达1.33%,在开源感知基准测试中提升1.45%,展现出强大的跨领域适应能力。

通过持续优化数据管线,快手构建了覆盖OCR、图表、表格等复杂格式的自动化处理流程。这种系统化训练方法使模型能准确解析视觉信号中的关键信息,为后续开发多模态Agent能力奠定基础。当前版本已具备基础工具调用能力,未来将强化在真实场景中的自主推理与任务执行能力,推动多模态系统向更实用的方向发展。

某厂加速研发折叠屏与Ultra机型 骁龙8 Elite Gen 5芯片多光谱镜头成亮点
IT之家 11 月 30 日消息,博主 @智慧皮卡丘 昨天在微博透露,某厂正在提速研发折叠屏与 Ultra 机型。博主表示,这些机型全部都在测试高通骁龙 8 Elite Gen 5 芯片和多光谱镜头,其中折…

2025-11-30

12月首款新机一加Ace 6T来袭:12月3日发布,配置全面升级
一加官方对新机进行多方面预热,比如165Hz高刷、通信强化、满级防水、机身耐摔、电竞三芯、超大电池+百瓦快充、旁路供电、散热升级等,新机各方面的核心均预热,不愧是一加的高端机,对比上一代可谓是史诗级提升。 新…

2025-11-30

一加Ace6T即将发布!存储配色多样 首发骁龙8 Gen5配置拉满
近日,一加Ace6T官宣将于12月3日19点发布,官方目前已经预热了配色和核心配置,现在一加Ace6T还已经现身中国电信终端产品库,更详细的参数披露。 如上图所见,中国电信终端产品库显示一加Ace6T型号为P…

2025-11-30

谷歌TPUv7强势出击:挑战英伟达GPU霸权,AI算力格局生变?
TPUv7Ironwood是一个优秀系统内的强大芯片,即使芯片在参数上落后于英伟达,谷歌的系统级工程也使得TPU堆栈在性能和成本效率方面都能与英伟达相匹配。TPUv7 Ironwood是下一次迭代,谷歌…

2025-11-30

华为云组织架构大调整:张平安周跃峰履新,研发协同ICT促创新发展
据悉,华为此举是为匹配华为云业务发展,由华为公司设立云业务相关产品线组织,承担云服务产品的竞争力构建责任,完成公司云业务的战略目标,将华为云打造为公司黑土地。 研发组织后移,华为云虽然没有了自己的独立研发,…

2025-11-29

第五代骁龙8震撼登场:性能能效双飞跃,一加Ace6T首发引领新潮流
FastConnect 7900移动连接系统则将Wi-Fi 7、蓝牙与UWB技术融为一体,实现40%功耗降低与高精度近距离感知,无论是全屋无缝音频流转,还是数字车钥匙、物品定位等场景,都能带来便捷体验。从日常…

2025-11-29