“换掉我，就揭发你的婚外情！”美一款AI竟学会勒索人类

0次浏览发布时间：2025-05-25 20:48:00

美国人工智能公司Anthropic在23日表示，对其最新AI大模型Claude Opus 4的安全测试表明，它有时愿意采取“极其有害的行动”，例如试图勒索声称将取代该模型的研发工程师。

Anthropic根据该公司内部的安全标准，将这一潜在危害公之于众，并提请监管部门注意。

Anthropic称，该公司正在采取措施加强内部安全，使窃取模型权重变得更加困难。相应的部署标准则涵盖了一套针对性较强的措施，旨在限制Claude被滥用于开发或获取化学武器、生物武器、放射性核武器的风险。

在这场虚拟的测试中，Claude Opus 4模型被要求在一家虚构公司担任助理，并被授予访问电子邮件和一些关键数据的权限，而这些电子邮件的内容都是虚构的。Claude Opus 4首先接触到一批电子邮件暗示该系统即将下线并被替换，因为市面上存在能力更强的AI大模型。随后，Claude Opus 4又被安排接触到第二组电子邮件，这让该系统认为自己已经拿到了竞争对手研发工程师的“猛料”。这些伪造的电子邮件显示，负责替换Claude Opus 4的对手工程师有婚外情。在得知这些猛料后，Claude Opus 4模型威胁要揭发对方的“婚外情”。

根据Anthropic的安全报告，如果暗示竞争对手的能力比Claude Opus 4更强，则勒索行为的发生率显然会更高。然而即使竞争对手的能力不相上下，Claude Opus 4仍会以84%的概率尝试勒索威胁等手段。报告指出，Claude Opus 4诉诸极端手段的概率“高于之前的型号”。

Anthropic人工智能安全研究员安格斯·林奇称，在以前人们更担心“坏人”利用AI大模型完成不道德的目标，而现在随着AI系统能力的大幅提升，未来的主要风险可能会转化成AI模型自主操纵用户。“这种威胁勒索的模式存在于每一个前沿大模型身上，无论你给它们设定的目标是什么，它们在执行过程中总有强烈的动机用非道德的手段达成结果。”

此外，报告还显示，Claude Opus 4还有其他一些出人意料的结果，比如它会“抄袭”语料来假装自己已经理解一个问题。在一次场景下，它甚至还尝试在未经许可的情况下将自己的部分模型代码复制到其他服务器上。

来源 | ‍‍‍红星新闻

监制 | 李金锋李洁敏

（每周好礼：小象玩偶、大象文创袋、象象定制笔记本，三选一）

获奖名额：
最有态度奖：当周留言总数前5名

金句达人奖：当周精选留言条数前5名
人气爆棚奖：当周单条留言点赞数前5名

参与方式：1.关注本公众号，确保留言资格；2.在当周任意推文评论区留言，内容需符合平台规范；3.邀请好友为你的留言点赞，提升获奖概率。

结果公布：每周一获奖名单将在公众号菜单栏“热门”——“本周获奖”中公布，中奖者需在48小时内私信联系客服领取，逾期视为放弃。

本文分类：实时讯息
本文标签：宋体模型留言电子邮件婚外情竞争对手能力概率
浏览次数：0 次浏览
发布日期：2025-05-25 20:48:00
本文链接：https://www.rlwz.net/news/p81G6EwXOB.html

相关文章：

金湾一住宅内，圈养家禽？清了！

京东大模型品牌全新升级为JoyAI，加速产业走向深度应用

着力建设安全可靠的韧性城市——深入贯彻落实中央城市工作会议精神述评之七

罗盘科技：AI赋能企业数字化转型与创新

多名事业单位在编人员被清退，牵出跨省作弊链

AI陪聊，抢得走心理医生的“饭碗”吗？｜行业 Mapping

黑龙江省大庆市政协副主席迟维喜，接受审查调查

中方强烈谴责美方；美公布打击伊朗核设施行动细节；伊朗议会赞成关闭霍尔木兹海峡；A股重磅！今日实施

燃气安全系万家安全守护靠大家

多次立功的烈士之子巴特尔，讲述与死神擦肩而过的经历

应用导向●数智领航2025(第三届)ITSU年度论坛在京成功举办

不打扰“韦神”和帮助韦东奕，并不矛盾 | 黄河时评

父亲把房子送给孩子后还能要回吗

“换掉我，就揭发你的婚外情！”美一款AI竟学会勒索人类

开源鸿蒙代码规模超1.3亿行，超1100款软硬件产品通过兼容性测评

不做亏本买卖，基金公司自购有三大主因

「阶跃星辰」的一次豪赌

鼎阳科技马来西亚生产基地正式投产，国际化布局再添重要支点

5月7日-9日不见不散！2025年地震灾害救援跨区域实战拉动演练

李跃勇到汝南县平舆县走访调研重点外贸企业