虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

蚂蚁技术研究院发布LLaDA2.0 扩散语言模型 参数达100B且开源共享

2025-12-12来源:快讯编辑:瑞雪

蚂蚁技术研究院近日正式发布全新离散扩散大语言模型系列——LLaDA2.0,同步公开的技术报告显示,该系列包含100B参数的"flash"版本与16B参数的"mini"版本,成为全球首个突破百亿参数的扩散语言模型。这一突破性成果标志着扩散模型在参数规模扩展领域取得重大进展,成功打破业界对扩散模型难以规模化应用的固有认知。

研发团队创新采用混合专家(MoE)架构,通过模块化设计实现模型性能与计算效率的平衡。在训练策略方面,提出的Warmup-Stable-Decay(WSD)持续预训练方法,使新模型能够直接继承现有自回归(AR)模型的知识体系,避免了传统从头训练带来的高昂成本。配合置信度感知并行训练(CAP)与扩散模型专用DPO技术,在保证生成质量的同时,将推理速度提升至AR模型的2.1倍。

多维度评估数据显示,LLaDA2.0在结构化生成任务中表现尤为突出。在代码生成、数学推理及智能体交互等场景下,其性能指标全面超越同级别AR模型,而在自然语言理解等基础能力方面则与开源AR模型持平。这种"专长强化+基础稳固"的特性,为特定领域的大模型应用开辟了新路径。

为推动技术生态发展,研究院已将16B与100B两个版本的模型权重及完整训练代码开源至Huggingface平台。开发者可通过公开资源复现训练过程,或基于现有模型进行二次开发。此次开源不仅降低了超大规模模型的技术门槛,更为学术界提供了研究扩散模型规模化应用的重要样本。

宇树科技王兴兴:具身智能“双80%”达成就迎拐点,未来一两年或迎突破
【环球网科技综合报道】12月12日消息,宇树科技创始人兼首席执行官王兴兴近日在接受央视节目采访时表示,具身智能领域的“ChatGPT时刻”有望在未来一两年内到来。这一判断基于其提出的“双80%”关键指标——当…

2025-12-12

麻省理工等利用Apple Watch数据构建AI模型 高效挖掘健康数据价值预测疾病
总体而言,这项研究提出了一种极具前景的方法,能够从通常被视为“不完整”或“不规则”的健康数据中提取最大价值,甚至在某些指标仅在 0.4%的时间内被记录、而另一些指标出现在 99% 日常读数中的极端不平衡情…

2025-12-12

苹果iOS 26固件曝光:AirTag 2配对更便捷 追踪能力再升级 2026年初或亮相
IT之家 12 月 12 日消息,据科技媒体 Mac Rumors 昨天报道,苹果 iOS 26 内部固件显示 AirTag 2将加入多项新功能,主要升级配对流程、追踪能力等,有望在 2026 年初发布。 …

2025-12-12

小米17 Ultra下周官宣在即 盲订开启 影像超大杯或掀高端市场新热潮
【CNMO科技消息】12月11日,数码博主@数码闲聊站 爆料称,小米17 Ultra将于下周(12月15-22日)官宣,本月发布。值得一提的是,该机或将是年前第一台影像超大杯新机,也将是唯一的一台第五代骁龙8…

2025-12-11

2000元档手机怎么选?荣耀500凭全能体验 成同价位首选机型
究其原因,现在的中端机型早已不是旗舰手机的下位阉割,无论是在硬件配置还是使用体验上,中端机都达到了媲美旗舰手机的水平。 总体来看,荣耀在方方面面的配置上考虑得更加周到,全场景无短板的综合体验,打破了同价位机型…

2025-12-11

支付宝携手Rokid推“智能眼镜AI付”,开启智能设备便捷支付新体验
12月10日消息,支付宝与Rokid近日合作推出业内首个面向智能眼镜的“AI付”解决方案,该服务以“支付MCP”的形式在Rokid灵珠AI开发平台上线。 这一服务基于MCP(模型上下文协议)标准,开发者无需编…

2025-12-11

谷歌安卓16新功能上线:AI助力Pixel手机通知自动分类,告别“通知轰炸”
IT之家 12 月 11 日消息,科技媒体 Android Authority 昨日(12 月 10 日)发布博文,报道称谷歌面向运行安卓 16QPR2 的 Pixel 9 和 Pixel 10 系列手机,…

2025-12-11