“换掉我,就揭发你的婚外情!”美一款AI竟学会勒索人类

美国人工智能公司Anthropic在23日表示,对其最新AI大模型Claude Opus 4的安全测试表明,它有时愿意采取“极其有害的行动”,例如试图勒索声称将取代该模型的研发工程师。
Anthropic根据该公司内部的安全标准,将这一潜在危害公之于众,并提请监管部门注意。

Anthropic称,该公司正在采取措施加强内部安全,使窃取模型权重变得更加困难。相应的部署标准则涵盖了一套针对性较强的措施,旨在限制Claude被滥用于开发或获取化学武器、生物武器、放射性核武器的风险。
在这场虚拟的测试中,Claude Opus 4模型被要求在一家虚构公司担任助理,并被授予访问电子邮件和一些关键数据的权限,而这些电子邮件的内容都是虚构的。Claude Opus 4首先接触到一批电子邮件暗示该系统即将下线并被替换,因为市面上存在能力更强的AI大模型。随后,Claude Opus 4又被安排接触到第二组电子邮件,这让该系统认为自己已经拿到了竞争对手研发工程师的“猛料”。这些伪造的电子邮件显示,负责替换Claude Opus 4的对手工程师有婚外情。在得知这些猛料后,Claude Opus 4模型威胁要揭发对方的“婚外情”。
根据Anthropic的安全报告,如果暗示竞争对手的能力比Claude Opus 4更强,则勒索行为的发生率显然会更高。然而即使竞争对手的能力不相上下,Claude Opus 4仍会以84%的概率尝试勒索威胁等手段。报告指出,Claude Opus 4诉诸极端手段的概率“高于之前的型号”。
Anthropic人工智能安全研究员安格斯·林奇称,在以前人们更担心“坏人”利用AI大模型完成不道德的目标,而现在随着AI系统能力的大幅提升,未来的主要风险可能会转化成AI模型自主操纵用户。“这种威胁勒索的模式存在于每一个前沿大模型身上,无论你给它们设定的目标是什么,它们在执行过程中总有强烈的动机用非道德的手段达成结果。”
此外,报告还显示,Claude Opus 4还有其他一些出人意料的结果,比如它会“抄袭”语料来假装自己已经理解一个问题。在一次场景下,它甚至还尝试在未经许可的情况下将自己的部分模型代码复制到其他服务器上。
监制 | 李金锋 李洁敏

(每周好礼:小象玩偶、大象文创袋、象象定制笔记本,三选一)
获奖名额:
最有态度奖:当周留言总数前5名
金句达人奖:当周精选留言条数前5名
人气爆棚奖:当周单条留言点赞数前5名
参与方式:1.关注本公众号,确保留言资格;2.在当周任意推文评论区留言,内容需符合平台规范;3.邀请好友为你的留言点赞,提升获奖概率。
结果公布:每周一获奖名单将在公众号菜单栏“热门”——“本周获奖”中公布,中奖者需在48小时内私信联系客服领取,逾期视为放弃。
相关文章:
- “换掉我,就揭发你的婚外情!”美一款AI竟学会勒索人类
- 开源鸿蒙代码规模超1.3亿行,超1100款软硬件产品通过兼容性测评
- 不做亏本买卖,基金公司自购有三大主因
- 「阶跃星辰」的一次豪赌
- 鼎阳科技马来西亚生产基地正式投产,国际化布局再添重要支点
- 5月7日-9日不见不散!2025年地震灾害救援跨区域实战拉动演练
- 李跃勇到汝南县平舆县走访调研重点外贸企业
- AI大模型正融入日常生活
- 商城县鲇鱼山街道:未震先防,街道上演地震应急“实景练兵”
- 致40人死亡,28日全国哀悼,伊朗港口爆炸最新细节披露;美官员:美乌矿产协议即将完成;6部门发文优化离境退税政策丨早报
- 四维图新精彩亮相2025上海车展 筑牢安全底色助推可信赖的智驾技术演进
- 三原自然资源局集中开展地质灾害避险演练
- 和济医院入选“东方早产救治联盟”第四批成员单位
- 微信宣布新功能!网友:早该这样
- 2025年世界互联网大会亚太峰会人工智能大模型论坛举行
- 教育部等:加快推进教育数字化 加强人工智能前瞻布局
- 聪明又灵巧,机器人如何做到
- 杭州:拟投向人工智能相关方向的产业基金规模超1000亿元
- “鲲鹏”振翅!西部战区多架运-20直冲云霄
- 2025联影创新大会:医疗智能体重构未来医疗范式