虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

DeepSeek新动向:MoE模型利器DeepEP通信库震撼开源!

2025-02-25来源:ITBEAR编辑:瑞雪

近日,DeepSeek在其备受瞩目的“开源周”活动中,迎来了第二天的重要发布——DeepEP,这是一个专为混合专家(MoE)模型训练和推理设计的开源EP通信库。

DeepEP的开源地址已经公布,感兴趣的开发者和研究人员可以访问此链接获取更多信息。

据官方介绍,DeepEP具备多项显著特征,使其成为处理MoE模型时的理想选择。首先,它采用了高效优化的全到全通信方式,确保了数据传输的高效性。其次,DeepEP支持节点内外的通信,并且兼容NVLink和RDMA技术,这为用户提供了更多的灵活性和兼容性。

DeepEP还提供了高吞吐量的内核,这些内核在训练和推理的前期填充阶段能够显著提升效率。同时,对于推理解码任务,DeepEP则提供了一套低延迟内核,这些内核采用纯RDMA技术,最大限度地减少了延迟,从而优化了推理解码速度。

DeepEP完全支持FP8数据格式的调度,这对于低精度计算的需求来说无疑是一个重要的优势。该库还提供了灵活的GPU资源管理功能,支持计算与通信的重叠执行,这进一步提高了资源利用效率和整体性能。

DeepEP的设计初衷是为了满足混合专家(MoE)和专家并行(EP)模型的特殊需求。它提供了高吞吐量和低延迟的all-to-all GPU内核,这些内核常用于MoE的派发和合并操作。为了与DeepSeek-V3论文中提出的组限制门控算法兼容,DeepEP还进行了一些针对不对称带宽转发优化的内核设计。

例如,它能够将数据从NVLink域转发到RDMA域,这些优化的内核提供了高吞吐量,非常适合用于训练和推理的预填充任务。同时,DeepEP还支持SM(流式多处理器)数量控制,这为用户提供了更多的控制和灵活性。

对于延迟敏感型的推理解码任务,DeepEP的低延迟内核无疑是一个重要的亮点。这些内核采用纯RDMA技术,最大限度地减少了延迟,从而确保了推理解码任务的高效执行。DeepEP还采用了一种基于Hook的通信与计算重叠方法,这种方法不会占用任何SM资源,进一步提高了整体性能。

当然,要使用DeepEP,还需要满足一些硬件和软件的要求。例如,需要配备Hopper GPUs(未来可能会支持更多架构或设备),以及Python 3.8及以上版本、CUDA 12.3及以上版本和PyTorch 2.1及以上版本。还需要使用NVLink或基于RDMA网络的节点间通信。

荣耀500系列新机预热来袭:2亿像素人像拍摄,配置越级似iPhone风
官方所预热的内容陆续增加,比如全新外观、影像、性能等方面,对比上一代更有趣。 荣耀500 Pro版本的配置有所曝光,处理器是上一代的骁龙8 Elite,性能同样保持在旗舰级别,无论是影像拍摄、玩手游、大型应用…

2025-11-15

Steam Frame登场 Valve停产Index VR头显 开启VR新征程
用户可通过无线适配器,将 PC 或 Steam Machine 上的平面屏(flatscreen)及 VR 游戏串流至 SteamFrame;与此同时,Steam Frame 本身也是一款独立设备,搭载高通…

2025-11-14

中国“天衍-287”超导量子计算机搭建完成 搭载同款芯片将全球开放应用
感谢IT之家网友 的线索投递! 11 月 14 日消息,据《科创板日报》11 月 13日报道,从中国电信量子研究院获悉,搭载“祖冲之三号”同款芯片的超导量子计算机“天衍-287”已完成搭建。 该量子计算系…

2025-11-14

四名MIT辍学00后,两年打造AI编程神器,估值冲300亿成资本新宠
两年前,在完成种子轮融资后,创始人曾写了这样的期待—— Cursor的诞生,推动了「氛围编程」(vibe coding)在全球兴起。 他还在创纪录的时间内,完成了一份手写编程测试,给早期Facebook投资…

2025-11-14

荣耀500 Pro配置亮点全揭秘:骁龙8至尊版+2亿主摄+8000mAh长续航
【CNMO科技消息】11月14日,有数码博主曝光了荣耀500Pro的核心参数。CNMO注意到,新机将搭载骁龙8至尊版移动平台,电池容量达到8000mAh,主打2亿像素大底主摄。 除了上述核心亮点外,荣耀50…

2025-11-14

疑似小米新款大尺寸横向阔折叠手机曝光 参数配置或迎重大升级
据CNMO了解,此前,有数码博主爆料称,小米新款大折叠手机正在测试2亿像素主摄,或采用1/1.4英寸大底高像素方案,可能支持35mm、50mm裁切光变。目前小米大折叠产品线型号为"MIX Fold",而新款…

2025-11-14

vivo V70现身Geekbench跑分平台 搭载骁龙7系 2026年一季度或发布
根据Geekbench平台信息,vivo V70搭载了与上代机型V60同款的骁龙7 Gen4移动平台。其中ProMini机型在国际市场或将更名为vivo X300 FE,而标准版S50可能基于vivo V…

2025-11-13

OPPO Reno15 Pro 11月17日登场:天玑8450+2亿主摄,屏幕续航全面升级
最新泄露的信息显示,这款新机将在屏幕、影像和续航等多个维度带来显著升级。 爆料数据显示,OPPO Reno15 Pro将搭载一块6.78英寸1.5K分辨率直屏,采用全球最窄的1.15mm四等边设计,配合金属中…

2025-11-13

荣耀500系列亮相:外观工艺焕新,“双超”升级点燃市场期待
结合此前该博主爆料的“影像能力大幅提升”信息,我们可以推测荣耀 500 系列可能在多镜头协同方面实现突破,而横向 Deco设计正是为这些硬件升级提供的结构支撑。 这种定位延续了荣耀数字系列自 300 系列…

2025-11-13