虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

从GPT-2到gpt-oss:深入解析大模型进化的关键细节

2025-08-18来源:ITBEAR编辑:瑞雪

在人工智能领域,大语言模型(LLM)的演进从未停歇,尽管整体架构自GPT-2以来并未发生根本性变化。近日,Sebastian Raschka博士通过深入分析OpenAI开源的gpt-oss模型(包括120B和20B版本),带领读者回顾了从GPT-2到gpt-oss的技术演进之路,并将gpt-oss与另一开源模型Qwen3进行了详细对比。

8月5日,就在GPT-5发布的前两天,OpenAI宣布推出两款开源大语言模型:gpt-oss-120b和gpt-oss-20b。这是自2019年GPT-2发布以来,OpenAI首次开放模型权重,且得益于巧妙的优化技术,这些模型甚至可以在本地设备上运行。

Raschka博士在其文章《从GPT-2到gpt-oss:架构进步分析》中,详细解析了从GPT-2到gpt-oss的架构演进。他指出,尽管两者在整体架构上相似,但gpt-oss在多个细节上进行了优化,如移除Dropout、采用RoPE替代绝对位置编码、激活函数从GELU转向Swish/SwiGLU等。

首先,Dropout技术虽然在早期Transformer架构中被广泛使用,但现代LLM发现其并不能显著提升性能,反而可能因单轮训练模式导致下游任务表现下降。因此,gpt-oss选择了移除Dropout。

其次,在位置编码方面,gpt-oss采用了RoPE(旋转位置嵌入)替代传统的绝对位置嵌入。RoPE通过对query和key向量施加位置相关的旋转来编码位置信息,这种方式更加高效且逐渐成为LLM的标配。

在激活函数的选择上,gpt-oss从GELU转向了Swish/SwiGLU。Swish的计算成本略低于GELU,且在实践中表现良好,尽管两者在建模性能上的差异并不显著。

更重要的是,gpt-oss对前馈网络模块进行了重构,引入了带门控的GLU(Gated Linear Unit)变体,如SwiGLU。这种结构不仅性能更好,而且总参数量更少,通过门控带来的额外乘法交互增强了模型的表达能力。

gpt-oss还采用了Mixture-of-Experts(MoE,专家混合)技术,用多个前馈模块替代单个前馈模块,并在每个token生成步骤中只启用其中一个子集。这种做法显著增加了模型的总参数量,但通过稀疏性在推理阶段保持了高效率。

在注意力机制方面,gpt-oss引入了分组查询注意力(GQA)替代传统的多头注意力(MHA),并通过滑动窗口注意力进一步降低内存占用和计算成本。同时,gpt-oss还用RMSNorm替代了LayerNorm,以提升训练效率。

在与Qwen3的对比中,gpt-oss展现出不同的设计思路。Qwen3是一个更深的架构,而gpt-oss则更宽。在MoE的使用上,gpt-oss采用了少量“大专家”策略,而Qwen3则倾向于更多、更小的专家。gpt-oss在注意力机制中引入了偏置项和注意力池,以稳定注意力机制。

在性能方面,gpt-oss与OpenAI自研的闭源模型以及Qwen3相当。尽管gpt-oss在某些任务上可能表现出较高的幻觉倾向,但其作为推理型模型的设计,使其在成本、算力和准确度之间找到了良好的平衡。

随着gpt-oss的开源,更多开发者将能够利用这一强大工具进行本地或私有化部署,推动人工智能技术在各领域的广泛应用。

小米再拓欧洲版图:巴黎首家直营门店即将开业 开启法国市场新篇章
近日,小米法国副国家经理“产品逸飞”发文官宣,小米将在巴黎开设首家直营门店。针对网友提问“之前不是在香街有一个吗?”,他进一步回应称,该店为客户运营的授权店,后因疫情因素暂时退出市场。 此前,小米集团总裁卢…

2025-11-15

华为Mate80 Pro Max来袭:自研双长焦加持,配置拉满对标苹果小米!
并且一直在曝光的Mate80系列具体机型也得到了最终确认,首先是依然有4款机型全名华为Mate80 ProMax,这也是继苹果小米之后,又一款Pro Max顶级旗舰。接下来直到发布前,华为Mate80系列还…

2025-11-15

TCL华星全球显示生态大会:四款新品亮相,AI赋能制造,印刷OLED节能显著
智东西11月14日苏州现场报道,今天上午,国内显示产业头部玩家TCL华星召开了自家一年一度的全球显示生态大会(DTC2025),发布了覆盖LCD、OLED和MLED等技术领域的多款旗舰新品,以及《视觉健康白…

2025-11-15

华为Mate 80系列新料:20GB国产内存搭配麒麟9030 配置亮点多
根据近期华为新机规划以及各方爆料,这款机型预计为华为 Mate 80 系列,有爆料称该系列新品将在 11 月 25 日发布。其中,ProMax 并非简单的名称更换,而是定位与 Pro 版差距更大的新增机型…

2025-11-14

全RGB排列屏幕成新趋势,vivo新机或搭载,小米17 Pro Max已率先应用
据CNMO了解,近期发布的小米17 ProMax就搭载了全RGB排列屏幕。凭借超级像素技术,其子像素总数高达938万,与传统2K屏约920万的子像素数量基本持平。 小米总裁卢伟冰曾表示,在友商同级产品纷纷…

2025-11-14

小米斩获国际大奖,OPPO新机参数曝光,荣耀500系列真机设计吸睛
官方放出了荣耀500系列真机的渲染视频,从视频中可以看出荣耀500系列外观设计非常有特点,大家都说像iPhoneAir,甚至有人讲荣耀提前发布“iPhone Air 2”。另外行业信息显示荣耀500全系是…

2025-11-13

iPhone 17系列线上线下热销,苹果2025年有喜有忧未来可期
在此情况下,原本不被看好的苹果 iPhone 17 系列成为一匹黑马,上市后销售极为火爆,尤其是中国市场的表现远超预期:首发 10天销量同比增长 14%,第三季度出货量达 1010 万台,成为头部厂商中唯…

2025-11-13

iPhone16Pro升级iOS26.2beta2实测:续航提升,发热改善,流畅与信号双飞跃
苹果今天凌晨突然发布了iOS26.2第二个预览版,有很多凌晨熬夜更新的小伙伴表示优化非常好,各方面体验要比第一版更好用,也获得了不少老果粉们的认可,那么最适合更新iOS26.2beta2的是哪款机型呢?下面就…

2025-11-13

大疆新品亮点频现:Avata 360无人机配旋转云台,Osmo Action 6相机可变光圈
在镜头和视频规格方面,Action 6 将配备全新的 F2.0-F4.0 可变光圈镜头,等效焦距为 16mm;支持录制带有 HDR 和ProRes 编码的 8K / 30fps 视频,还支持 5.3K /…

2025-11-13

原DeepSeek核心成员罗福莉加盟小米MiMo团队 疑聚焦世界模型与具身智能领域
智东西11月12日消息,今天上午,原DeepSeek核心成员、被业内称为“天才少女”的罗福莉在朋友圈正式官宣加盟XiaomiMiMo团队,并宣告“全力奔赴心中的AGI(通用人工智能)”。 罗福莉一条简单的…

2025-11-13