虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

摩尔线程王华解析:大智算集群时代,FP8精度与集群可靠性助力万亿模型训练

2025-08-02来源:ITBEAR编辑:瑞雪

随着人工智能领域对算力的需求呈现指数级增长,大智算集群已成为模型训练不可或缺的基础设施。这一趋势的背后,是模型参数与数据量的不断膨胀,驱动着算力需求的急剧上升。从GPT、Llama到Grok等主流模型的发展历程中,算力需求的增长尤为显著,Grok-4等最新模型的算力需求已较早期模型提升了近千倍。

在大规模集群训练的场景下,算力需求的增长带来了前所未有的挑战。以DeepSeek、Kimi K2及GPT-4等模型为例,其训练所需的算力及时间成本均极为高昂。即便是采用高性能的英伟达H100集群,训练这些模型也需耗费数十天乃至数百天的时间。因此,单纯依靠扩大集群规模已难以满足当前的算力需求,亟需探索新的解决方案。

在这一背景下,低精度训练成为了提升训练效率的关键途径。从FP32到FP16,再到如今的FP8,精度的降低带来了算力的显著提升。然而,精度的下降也伴随着模型效果的损失。如何在精度与算力之间找到平衡点,成为了业界关注的焦点。摩尔线程副总裁王华在WAIC2025期间的摩尔线程技术分享日上,以《基于FP8的国产万卡训练》为主题,分享了摩尔线程在这一领域的创新与思考。

王华指出,通过引入精度参数,可以构建新的Scaling Law模型,从而在参数量、数据量与精度之间找到最优配置。实验结果表明,FP8成为了精度与算力之间的最佳平衡点。然而,低精度训练也面临着诸多挑战,如数值范围小、易上溢下溢等问题。为解决这些问题,摩尔线程采用了混合精度训练等技术手段,对非敏感部分采用FP8进行计算,而对敏感部分则继续使用高精度。

在软硬件支持方面,摩尔线程提供了全栈的完整解决方案。硬件上,其GPU支持从FP64到FP8的全精度算力;软件上,摩尔线程推出了Torch-MUSA、MT-MegatronLM及MT-TransformerEngine等开源框架,这些框架均支持FP8混合精度训练,并实现了对FP8数据类型的完整支持。在此基础上,摩尔线程成功复现了DeepSeek-V3的整个训练过程,成为业内率先能复现DeepSeek满血版训练的厂商。

王华还分享了摩尔线程在FP8训练上的探索与实验。在scaling factor的选择及outlier的影响等方面,摩尔线程进行了深入的研究,并提出了有效的解决方案。例如,在scaling factor的选择上,摩尔线程采用了Per-Tensor及JIT动态的scaling factor选择策略;在降低outlier影响方面,则采用了Smooth SwiGLU等技术手段。

在大规模集群训练方面,摩尔线程同样取得了显著的进展。为提高集群训练的可靠性,摩尔线程引入了起飞检查、飞行检查及落地检查等训练生命周期管理措施。同时,针对慢节点及容错训练等问题,摩尔线程也提出了相应的解决方案。例如,在慢节点检测方面,摩尔线程通过起飞检查阶段的小工作负载测试及训练过程中的通信执行时间监测等手段,有效识别并解决了慢节点问题;在容错训练方面,则采用了动态摘除故障节点等策略,确保了集群训练的持续稳定运行。

王华的分享不仅展示了摩尔线程在FP8低精度训练及大规模集群训练方面的创新成果,也为业界提供了宝贵的参考与借鉴。随着人工智能技术的不断发展,摩尔线程将继续深耕这一领域,为人工智能的未来发展贡献更多力量。

小米再拓欧洲版图:巴黎首家直营门店即将开业 开启法国市场新篇章
近日,小米法国副国家经理“产品逸飞”发文官宣,小米将在巴黎开设首家直营门店。针对网友提问“之前不是在香街有一个吗?”,他进一步回应称,该店为客户运营的授权店,后因疫情因素暂时退出市场。 此前,小米集团总裁卢…

2025-11-15

华为Mate80 Pro Max来袭:自研双长焦加持,配置拉满对标苹果小米!
并且一直在曝光的Mate80系列具体机型也得到了最终确认,首先是依然有4款机型全名华为Mate80 ProMax,这也是继苹果小米之后,又一款Pro Max顶级旗舰。接下来直到发布前,华为Mate80系列还…

2025-11-15

TCL华星全球显示生态大会:四款新品亮相,AI赋能制造,印刷OLED节能显著
智东西11月14日苏州现场报道,今天上午,国内显示产业头部玩家TCL华星召开了自家一年一度的全球显示生态大会(DTC2025),发布了覆盖LCD、OLED和MLED等技术领域的多款旗舰新品,以及《视觉健康白…

2025-11-15

华为Mate 80系列新料:20GB国产内存搭配麒麟9030 配置亮点多
根据近期华为新机规划以及各方爆料,这款机型预计为华为 Mate 80 系列,有爆料称该系列新品将在 11 月 25 日发布。其中,ProMax 并非简单的名称更换,而是定位与 Pro 版差距更大的新增机型…

2025-11-14

全RGB排列屏幕成新趋势,vivo新机或搭载,小米17 Pro Max已率先应用
据CNMO了解,近期发布的小米17 ProMax就搭载了全RGB排列屏幕。凭借超级像素技术,其子像素总数高达938万,与传统2K屏约920万的子像素数量基本持平。 小米总裁卢伟冰曾表示,在友商同级产品纷纷…

2025-11-14

小米斩获国际大奖,OPPO新机参数曝光,荣耀500系列真机设计吸睛
官方放出了荣耀500系列真机的渲染视频,从视频中可以看出荣耀500系列外观设计非常有特点,大家都说像iPhoneAir,甚至有人讲荣耀提前发布“iPhone Air 2”。另外行业信息显示荣耀500全系是…

2025-11-13

iPhone 17系列线上线下热销,苹果2025年有喜有忧未来可期
在此情况下,原本不被看好的苹果 iPhone 17 系列成为一匹黑马,上市后销售极为火爆,尤其是中国市场的表现远超预期:首发 10天销量同比增长 14%,第三季度出货量达 1010 万台,成为头部厂商中唯…

2025-11-13

iPhone16Pro升级iOS26.2beta2实测:续航提升,发热改善,流畅与信号双飞跃
苹果今天凌晨突然发布了iOS26.2第二个预览版,有很多凌晨熬夜更新的小伙伴表示优化非常好,各方面体验要比第一版更好用,也获得了不少老果粉们的认可,那么最适合更新iOS26.2beta2的是哪款机型呢?下面就…

2025-11-13

大疆新品亮点频现:Avata 360无人机配旋转云台,Osmo Action 6相机可变光圈
在镜头和视频规格方面,Action 6 将配备全新的 F2.0-F4.0 可变光圈镜头,等效焦距为 16mm;支持录制带有 HDR 和ProRes 编码的 8K / 30fps 视频,还支持 5.3K /…

2025-11-13

原DeepSeek核心成员罗福莉加盟小米MiMo团队 疑聚焦世界模型与具身智能领域
智东西11月12日消息,今天上午,原DeepSeek核心成员、被业内称为“天才少女”的罗福莉在朋友圈正式官宣加盟XiaomiMiMo团队,并宣告“全力奔赴心中的AGI(通用人工智能)”。 罗福莉一条简单的…

2025-11-13