虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

DeepSeek V4基准测试引热议,编程能力或超顶尖闭源模型,明日发布?

2026-02-17来源:快讯编辑:瑞雪

近日,一款名为DeepSeek V4的开源大模型引发AI圈热议。有消息称,该模型或将于春节期间正式发布,其编程能力、上下文处理能力等多项指标均达到行业顶尖水平,甚至被部分网友称为“首个能匹敌顶尖闭源模型的开源模型”。

据泄露的基准测试数据,DeepSeek V4在SWE-bench Verified测试中取得了83.7%的成绩,超越了Claude Opus 4.5(80.9%)和GPT-5.2(80%)。这一成绩若被证实,将直接改写当前“最强代码模型”的排名。该模型在AIME 2026、IMO Answer Bench等数学推理测试中也表现出色,分别取得99.4%和88.4%的高分,甚至在FrontierMath Tier 4测试中达到GPT-5.2的11倍成绩。

除了编程和数学能力,DeepSeek V4的上下文处理能力同样引人注目。有传闻称,该模型支持高达100万token的上下文长度,并引入了新的Engram条件存储系统,能够实现近乎无限的上下文检索。这一特性使其在处理大型代码库或复杂分布式系统时更具优势,能够理解代码库中文件变化对其他部分的影响,为企业级开发提供强大支持。

然而,随着消息的传播,部分基准测试数据的真实性也受到质疑。有业内人士指出,在官方评分系统下,模型不可能达到99.4%的分数,最高分应为100%或99.2%。Epoch AI也确认,FrontierMath的数据存在伪造嫌疑,因为只有他们和OpenAI有权对该数据集进行评估。这些质疑使得DeepSeek V4的真实性能蒙上一层阴影。

尽管如此,DeepSeek V4的发布仍被视为开源模型领域的一次重要突破。此前,DeepSeek的V3和R1模型已证明开源AI模型能够以极低成本与专有模型竞争,而V4则有望在此基础上进一步提升开源模型的竞争力。据透露,V4在训练过程中对数据模式的理解能力得到提升,且不易出现性能衰减,输出结果在逻辑上也更加严密和可靠。

目前,DeepSeek官方尚未对V4的发布时间和具体性能作出正式回应,但业内普遍猜测,该模型可能正在测试一个轻量级版本(V4-lite),以逐步释放其技术潜力。与此同时,Hugging Face、GitHub等平台上仍未出现DeepSeek V4的相关更新,进一步加剧了外界对其真实性的猜测。

无论DeepSeek V4的最终性能如何,其引发的讨论已充分说明开源模型在AI领域的影响力正在不断扩大。随着技术的不断进步,开源与闭源模型之间的竞争或将更加激烈,而用户也将从中获得更多选择和更高质量的AI服务。

苹果官宣3月4日上海办活动 iPhone 17e及新配色MacBook或齐亮相
按照此前的爆料,此次发布会上将与我们见面的,很有可能是全新的iPhone 17e。另外,包括春季新配色的iPhone17、搭载A18芯片的MacBook等产品,也有望在此次活动中亮相。 目前来看,iPhon…

2026-02-17

苹果3月4日将办特别体验活动,多款新品或亮相引期待
快科技2月16日消息,今日,苹果宣布将于美东时间3月4日上午9点在纽约、伦敦和上海举办一场特别的Apple体验活动。据了解,苹果即将发布多款新产品,包括搭载M5 Pro和M5 Max芯片的MacBook P…

2026-02-17

苹果欧版iPhone 18 Pro/Max或取消实体SIM卡槽 全面拥抱eSIM时代
目前,苹果美版、日版、墨西哥版、沙特阿拉伯版等版本 iPhone 机型均采用 eSIM 设计,不过相应版本机型仍然可以通过“改卡”方式实现实体SIM 支持。 参考IT之家此前报道,目前也已有技术师傅成功为…

2026-02-16

OpenAI“招安”OpenClaw之父:AI Agent赛道将迎激烈新战局
他在消息中明确表示:“OpenClaw将继续以开源项目形式存在,OpenAI也会继续为其提供支持。” OpenAI在AIAgent上,确实有压力了。 就是在这个节点,Steinberger推出了OpenC…

2026-02-16

三星测试安卓首款阔折叠屏新机,或下半年发布对标iPhone Fold
快科技2月16日消息,三星正在测试全新的OneUI 9系统,开发者在底层代码中挖掘出了一款神秘折叠屏新机的踪迹。在命名上,爆料称这款新设备可能会被冠以Galaxy Wide Fold的名称,这预示着它将作为…

2026-02-16