DeepSeek V4基准测试引热议，编程能力或超顶尖闭源模型，明日发布？-智能汽车-虎科技

近日，一款名为DeepSeek V4的开源大模型引发AI圈热议。有消息称，该模型或将于春节期间正式发布，其编程能力、上下文处理能力等多项指标均达到行业顶尖水平，甚至被部分网友称为“首个能匹敌顶尖闭源模型的开源模型”。

据泄露的基准测试数据，DeepSeek V4在SWE-bench Verified测试中取得了83.7%的成绩，超越了Claude Opus 4.5（80.9%）和GPT-5.2（80%）。这一成绩若被证实，将直接改写当前“最强代码模型”的排名。该模型在AIME 2026、IMO Answer Bench等数学推理测试中也表现出色，分别取得99.4%和88.4%的高分，甚至在FrontierMath Tier 4测试中达到GPT-5.2的11倍成绩。

除了编程和数学能力，DeepSeek V4的上下文处理能力同样引人注目。有传闻称，该模型支持高达100万token的上下文长度，并引入了新的Engram条件存储系统，能够实现近乎无限的上下文检索。这一特性使其在处理大型代码库或复杂分布式系统时更具优势，能够理解代码库中文件变化对其他部分的影响，为企业级开发提供强大支持。

然而，随着消息的传播，部分基准测试数据的真实性也受到质疑。有业内人士指出，在官方评分系统下，模型不可能达到99.4%的分数，最高分应为100%或99.2%。Epoch AI也确认，FrontierMath的数据存在伪造嫌疑，因为只有他们和OpenAI有权对该数据集进行评估。这些质疑使得DeepSeek V4的真实性能蒙上一层阴影。

尽管如此，DeepSeek V4的发布仍被视为开源模型领域的一次重要突破。此前，DeepSeek的V3和R1模型已证明开源AI模型能够以极低成本与专有模型竞争，而V4则有望在此基础上进一步提升开源模型的竞争力。据透露，V4在训练过程中对数据模式的理解能力得到提升，且不易出现性能衰减，输出结果在逻辑上也更加严密和可靠。

目前，DeepSeek官方尚未对V4的发布时间和具体性能作出正式回应，但业内普遍猜测，该模型可能正在测试一个轻量级版本（V4-lite），以逐步释放其技术潜力。与此同时，Hugging Face、GitHub等平台上仍未出现DeepSeek V4的相关更新，进一步加剧了外界对其真实性的猜测。

无论DeepSeek V4的最终性能如何，其引发的讨论已充分说明开源模型在AI领域的影响力正在不断扩大。随着技术的不断进步，开源与闭源模型之间的竞争或将更加激烈，而用户也将从中获得更多选择和更高质量的AI服务。

苹果官宣3月4日上海办活动 iPhone 17e及新配色MacBook或齐亮相

按照此前的爆料，此次发布会上将与我们见面的，很有可能是全新的iPhone 17e。另外，包括春季新配色的iPhone17、搭载A18芯片的MacBook等产品，也有望在此次活动中亮相。目前来看，iPhon…

2026-02-17

苹果3月4日将办特别体验活动，多款新品或亮相引期待

快科技2月16日消息，今日，苹果宣布将于美东时间3月4日上午9点在纽约、伦敦和上海举办一场特别的Apple体验活动。据了解，苹果即将发布多款新产品，包括搭载M5 Pro和M5 Max芯片的MacBook P…

2026-02-17

苹果欧版iPhone 18 Pro/Max或取消实体SIM卡槽全面拥抱eSIM时代

目前，苹果美版、日版、墨西哥版、沙特阿拉伯版等版本 iPhone 机型均采用 eSIM 设计，不过相应版本机型仍然可以通过“改卡”方式实现实体SIM 支持。参考IT之家此前报道，目前也已有技术师傅成功为…

2026-02-16

阿里千问Qwen3.5-Plus发布：多模态升级，多项评测成绩超越顶尖模型

2026-02-16

OpenAI“招安”OpenClaw之父：AI Agent赛道将迎激烈新战局

他在消息中明确表示：“OpenClaw将继续以开源项目形式存在，OpenAI也会继续为其提供支持。” OpenAI在AIAgent上，确实有压力了。就是在这个节点，Steinberger推出了OpenC…

2026-02-16

三星测试安卓首款阔折叠屏新机，或下半年发布对标iPhone Fold

快科技2月16日消息，三星正在测试全新的OneUI 9系统，开发者在底层代码中挖掘出了一款神秘折叠屏新机的踪迹。在命名上，爆料称这款新设备可能会被冠以Galaxy Wide Fold的名称，这预示着它将作为…

2026-02-16