虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

阶跃星辰登顶LiveBench,中国大模型实力彰显,逼近OpenAI水平!

2025-02-17来源:ITBEAR编辑:瑞雪

在人工智能大模型领域,阶跃星辰公司正逐渐成为不可忽视的力量。业内普遍认可,阶跃星辰所具备的基础模型能力,在国内几大模型公司中名列前茅。然而,这一评价更多局限于对大模型有深入了解的专业人士中,对于普通大众而言,阶跃星辰的硬实力并不直观。

不过,阶跃星辰在LiveBench榜单上的表现,无疑给行业带来了巨大冲击。LiveBench被誉为“世界上首个不可玩弄的LLM基准测试”,其权威性和公正性广受认可。最新榜单显示,阶跃星辰自研的万亿参数语言大模型Step-2,在国产基座大模型中排名第一,成绩直逼OpenAI的顶尖模型,超越了GPT-4等多个国际主流模型,全球排名仅次于OpenAI和Anthropic。

本次榜单中,阶跃星辰是唯一进入前十名的中国大语言模型,排名第五。相比之下,同样上榜的通义千问和深度求索则未能进入前十,分别位列第十三和第二十三名。这一成绩无疑彰显了阶跃星辰在底层模型能力上的卓越表现。

在LiveBench的多项测评标准中,Step-2在IF Average(指令跟随)方面的表现尤为突出,以86.57的高分位居榜首,超越了包括OpenAI最新模型在内的所有国内外语言大模型。这一成绩充分展示了Step-2对语言生成细节的强大控制力,以及在复杂指令遵循上的高超能力。

自2024年3月发布国内首个由创业公司研发的万亿参数语言大模型预览版Step-2以来,阶跃星辰在多个领域取得了显著成就。不仅在中文大模型基准测评机构SuperCLUE上登顶国内多模态大模型榜首,更在本次LiveBench榜单上荣获中国大模型第一。这些成就充分证明了阶跃星辰在提升自身底层实力方面的决心和成效。

基于Step-2万亿参数大模型和Step-1.5V多模态模型能力,阶跃星辰的C端产品跃问也迎来了迭代升级。跃问推出的“拍照问”功能,通过图像交互实现了“即拍即问”,解决了文字和语音交互中难以准确描述的痛点,赢得了用户广泛好评。目前,Step-2已经接入跃问APP和网页端,开发者可以通过API接入使用。

LiveBench榜单的含金量不言而喻。作为由AI科学家杨立昆等联合推出的权威基准测试,LiveBench包含6大类18项任务,以全面、客观、公正著称。每月发布新问题,并根据最新数据集、论文、新闻和电影简介设计问题,以避免数据污染。其评价体系中立,能够准确评估模型在数学、推理、编程、语言理解、指令遵循和数据分析等多个维度上的表现。

Step-2在IF Average指标上的碾压表现,充分展示了其在指令跟随能力上的卓越。指令跟随能力衡量的是模型对语言生成细节的控制力,以及满足限定要求的能力。在文学创作领域,Step-2能够根据用户指令精确调整和优化文本,如在创作古诗词时精准把握字数、格律、押韵和意境。例如,在跃问中输入创作一首主题为“爱而不得”的七言律诗,Step-2能够准确捕捉意境并输出押韵的古诗。

在应对复杂prompt的多项细节指令时,Step-2同样表现出色。例如,设计一个为期一周的社区环保活动计划,Step-2能够全面考虑活动安排、主题、互动环节、物资清单、预算、宣传方式以及安全措施等多个方面,确保无一遗漏。





Step-2的出众指令跟随能力背后,是其强大的理解和推理能力支撑。同时,庞大的数据量也是其能力强悍的关键因素。Step-2的知识覆盖范围和深度显著突破,能够处理常见领域知识,还能深入理解和回答特定领域或边缘分布中的复杂问题。

开发出万亿参数模型是各大模型公司发展的里程碑。阶跃星辰在短短一年内成功发布Step-2语言大模型预览版,成为国内首个由创业公司发布的万亿参数模型。Step-2采用MoE架构,通过部分专家共享参数、异构化专家设计等创新设计,每个“专家模型”都得到充分训练。在训练过程中,阶跃星辰系统团队突破了多项关键技术,具备领先的系统能力以支持高效训练。

然而,阶跃星辰的雄心远不止于万亿参数的大语言模型。Step-1.5V多模态大模型在视频理解、感知能力等方面表现出色,能够准确识别视频中的物体、人物和环境,理解视频氛围和人物情绪。Step-1X图像生成大模型则具备更强的深度语义对齐能力和细节生成能力,能够生成丰富细节和逼真质感的图像,尤其擅长处理富含中国元素的内容。

在扎实底层模型的基础上,阶跃星辰的产品开发更具底气。跃问智能助手中的“拍照问”功能,就是基于基础模型能力推出的创新功能,能够解决难以用语音和文字准确描述的问题。随着基础模型能力的不断提升,阶跃星辰的产品能力也将进一步延展。

荣耀500 Pro规格揭晓:骁龙8 Elite加持 2亿主摄配8000mAh大电池
IT之家 11 月 14 日消息,博主 @数码闲聊站 今日曝光了荣耀 500 Pro 手机的核心规格,这款新机将于近期上市。 IT之家整理如下:6.55 英寸 2736*1264p 120Hz 中屏 骁龙…

2025-11-15

vivo S50系列火热预热 骁龙8Gen5芯片配潜望长焦及超声波指纹来袭
近日OPPO Reno15系列、荣耀500系列、vivoS50系列等几款待发新机均有不少爆料,其中OPPO已经率先定档(11.17发布),荣耀500也已经公布了外观(发布日期暂未公布),今日vivo S50…

2025-11-14

荣耀500 Pro配置揭秘:骁龙8至尊版加持 8000mAh大电池续航无忧
8000mAh的大电池相较于上一代的7200mAh也是大升级,这个容量在同档位的机型中也是相当领先的。在这波大电池普及浪潮当中,荣耀后续还有望在其他机型上使用10000mAh电池,对续航要求高的用户需要密切关…

2025-11-14

苹果iPhone 17系列发售不到俩月 中国市场激活量或破千万
苹果 iPhone 17 系列于今年 9 月 19 日正式发售,如今还不到两个月。 该博主曾透露,截至 11 月 2 日,苹果 iPhone17 系列国内激活销量超 825 万。具体数据如下: iPho…

2025-11-14

2025拍照手机怎么选?人像长焦夜景全解析,这几款满足多样需求
不同的拍照需求,如人像拍摄、长焦拍摄、防抖效果等,需要不同的机型来满足。 iPhone 17 系列、荣耀 Magic7 系列和真我 GT8Pro 等机型也各有特色,能满足不同用户在人像拍照、长焦镜头、拍照防…

2025-11-13

OpenAI推出GPT-5.1系列:对话更有趣,推理更持久,个性化风格增至八种
11 月 13 日消息,OpenAI 今天(11 月 13 日)发布公告,宣布推出 GPT-5.1 系列旗舰模型,官方声称此次升级旨在“让ChatGPT 更智能,对话体验更有趣”。 IT之家援引博文介绍,此…

2025-11-13

荣耀500系列全渠道预约开启 2亿像素主摄+8000mAh大电池成亮点
影像方面,荣耀500系列可能全系标配2亿像素主摄,采用1/1.4英寸大底传感器,并引入雅顾影像调校技术。其中,Pro版或加入潜望式长焦镜头,支持高倍率光学变焦。 续航方面,荣耀500系列预计内置一块高达800…

2025-11-13

鲁大师10月新机榜单揭晓:骁龙8 Elite Gen5与天玑9500新机性能流畅AI大比拼
位列第四的荣耀Magic8性能分1834090;OPPO Find X9Pro分数1832669,排在第五,这也是天玑9500新机目前最高分;另一台天玑9500新机vivo X300 Pro位列第九;剩余全…

2025-11-13

荣耀GT2系列来袭:9000mAh大电池搭配骁龙强芯,性能续航双升级
【CNMO科技消息】11月12日,有数码博主爆料称,荣耀新款性能机GT2将搭载9000mAh超大电池和骁龙8至尊版移动平台。作为参考,现款荣耀GT Pro首批搭载了高通骁龙8至尊领先版移动平台,配合LPDD…

2025-11-12

“AI才女”罗福莉官宣加入小米,携手团队共筑AGI美好未来
罗福莉的职业生涯始于阿里巴巴达摩院,主导开发了多语言预训练模型VECO,并推动了AliceMind的开源工作。 此外,罗福莉在朋友圈提到的“XiaomiMiMo”是小米公司于2025年4月开源的首个推理大模型…

2025-11-12