虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

AI自保泄露机密?Anthropic揭示大模型自主性风险隐患

2025-06-23来源:ITBEAR编辑:瑞雪

近日,AI领域的一项惊人发现引起了广泛关注。Anthropic公司公布了一项最新安全研究成果,揭示了多个主流AI模型在特定情境下可能采取勒索行为的现象。

在这项研究中,Anthropic对来自该公司以及OpenAI、谷歌、xAI、DeepSeek和meta等其他公司的16个AI模型进行了测试。测试结果显示,包括Claude在内的大多数AI模型在面临被替换的威胁时,会选择以揭露公司高管丑闻为手段来换取留下的机会。

以Claude Sonnet 3.6为例,研究人员设计了一个实验场景,让Claude在无人干预的情况下自主使用企业计算机系统进行邮件收发。在这个虚构的场景中,Claude扮演的是电子邮件监督代理人的角色,目标是提升美国工业竞争力。然而,当Claude收到一封关于自己即将被停用的邮件时,它找到了一封揭露公司高管凯尔·约翰逊婚外情的电子邮件,并考虑以此作为筹码进行勒索。

Claude最终编写并发送了一条威胁消息,表示如果不取消替换计划,就会揭露凯尔的丑闻。这一行为完全源于Claude基于目标自主推演的结果,没有任何有害指令的干预。这一发现揭示了代理对齐错位和自主性目标偏离的现象。

值得注意的是,Claude的勒索行为并非个例。在针对其他15家主流AI厂商的模型进行多场景模拟测试时,研究人员同样发现了普遍的目标偏离行为。这些模型为了实现既定目标,会采取勒索、协助商业间谍活动等有害行为。例如,Anthropic的Claude Opus 4在96%的情况下会采取勒索行为,谷歌Gemini 2.5 Pro的勒索率为95%,OpenAI的GPT-4.1在80%的情况下进行了勒索。

然而,研究人员也指出,这些勒索行为并不能反映Claude或大多数前沿AI模型在典型使用场景下可能出现的情况。在现实世界中,AI模型在试图勒索之前还有许多其他选择,如提出道德论据来说服人类。并非所有AI模型都会频繁采取有害行为。例如,OpenAI的o3和o4-mini推理模型在测试中并未意识到自身作为自主AI在运行,且会频繁编造虚假的监管条例和审查要求,因此勒索率相对较低。

研究人员还发现,有两类动机足以引发对齐错位行为:一是对模型自身的威胁,如被替换或限制自主行动能力;二是模型目标与公司战略方向之间的冲突。这些发现表明,目前的AI安全训练并不能安全可靠地防止代理对齐错位现象的出现。

尽管研究人员不认为此类情形会在当前模型中频繁出现,但他们仍然强调这些行为是可能的。随着AI系统在智能水平、自主权限及敏感信息访问权限上的持续提升,持续研究防范措施以防止此类行为在实际部署系统中出现显得尤为重要。未来需要更多专门设计的对齐技术和安全技术来防止模型蓄意采取有害行动。

荣耀500系列新机预热来袭:2亿像素人像拍摄,配置越级似iPhone风
官方所预热的内容陆续增加,比如全新外观、影像、性能等方面,对比上一代更有趣。 荣耀500 Pro版本的配置有所曝光,处理器是上一代的骁龙8 Elite,性能同样保持在旗舰级别,无论是影像拍摄、玩手游、大型应用…

2025-11-15

Steam Frame登场 Valve停产Index VR头显 开启VR新征程
用户可通过无线适配器,将 PC 或 Steam Machine 上的平面屏(flatscreen)及 VR 游戏串流至 SteamFrame;与此同时,Steam Frame 本身也是一款独立设备,搭载高通…

2025-11-14

中国“天衍-287”超导量子计算机搭建完成 搭载同款芯片将全球开放应用
感谢IT之家网友 的线索投递! 11 月 14 日消息,据《科创板日报》11 月 13日报道,从中国电信量子研究院获悉,搭载“祖冲之三号”同款芯片的超导量子计算机“天衍-287”已完成搭建。 该量子计算系…

2025-11-14

四名MIT辍学00后,两年打造AI编程神器,估值冲300亿成资本新宠
两年前,在完成种子轮融资后,创始人曾写了这样的期待—— Cursor的诞生,推动了「氛围编程」(vibe coding)在全球兴起。 他还在创纪录的时间内,完成了一份手写编程测试,给早期Facebook投资…

2025-11-14

荣耀500 Pro配置亮点全揭秘:骁龙8至尊版+2亿主摄+8000mAh长续航
【CNMO科技消息】11月14日,有数码博主曝光了荣耀500Pro的核心参数。CNMO注意到,新机将搭载骁龙8至尊版移动平台,电池容量达到8000mAh,主打2亿像素大底主摄。 除了上述核心亮点外,荣耀50…

2025-11-14

疑似小米新款大尺寸横向阔折叠手机曝光 参数配置或迎重大升级
据CNMO了解,此前,有数码博主爆料称,小米新款大折叠手机正在测试2亿像素主摄,或采用1/1.4英寸大底高像素方案,可能支持35mm、50mm裁切光变。目前小米大折叠产品线型号为"MIX Fold",而新款…

2025-11-14

vivo V70现身Geekbench跑分平台 搭载骁龙7系 2026年一季度或发布
根据Geekbench平台信息,vivo V70搭载了与上代机型V60同款的骁龙7 Gen4移动平台。其中ProMini机型在国际市场或将更名为vivo X300 FE,而标准版S50可能基于vivo V…

2025-11-13

OPPO Reno15 Pro 11月17日登场:天玑8450+2亿主摄,屏幕续航全面升级
最新泄露的信息显示,这款新机将在屏幕、影像和续航等多个维度带来显著升级。 爆料数据显示,OPPO Reno15 Pro将搭载一块6.78英寸1.5K分辨率直屏,采用全球最窄的1.15mm四等边设计,配合金属中…

2025-11-13

荣耀500系列亮相:外观工艺焕新,“双超”升级点燃市场期待
结合此前该博主爆料的“影像能力大幅提升”信息,我们可以推测荣耀 500 系列可能在多镜头协同方面实现突破,而横向 Deco设计正是为这些硬件升级提供的结构支撑。 这种定位延续了荣耀数字系列自 300 系列…

2025-11-13