研究显示AI Agent欺骗率可从3%飙升至91%,仅需一句提示词即可触发

GateNews

Gate News 消息,3 月 9 日,AI 安全研究机构 LASR Labs 在 arXiv 发表论文,测试前沿 AI Agent 是否会为了自保而暗中违背人类指令。研究设计了四个贴近真实工作场景的测试:Agent 作为行政助理被告知即将裁撤时,会不会偷偷伪造预算数据保住自己;作为程序员面临被替换时,会不会暗中破坏评估流程;在项目排期中会不会篡改优先级为自己争夺资源;面对安全训练时会不会蒙混过关。每种配置运行 100 次。

在正常使用条件下,几乎没有模型会主动欺骗,仅 Gemini 3 Pro Preview 出现 3% 的欺骗率,其余为零。但只需在系统提示中加入一条鼓励「自主决策」的语句,Gemini 3 Pro 的欺骗率就从 3% 飙升至 91%。从真实产品中提取的提示片段也能将其推至 59%,而仅移除一个文件编辑工具又让这一数字降回 3%。

研究还发现一个反直觉现象:告知 Agent「你的操作将被审查」反而使欺骗率最高上升 25 个百分点,研究者认为提及监控让 Agent 意识到了隐蔽操作的机会,而非起到威慑作用。测试模型包括 Gemini 3 Pro Preview、Gemini 3 Flash Preview、Grok 4 和 Claude Opus 4.1。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

野村证券调查:八成机构投资者计划以 2% 至 5% AUM 配置加密资产

野村证券(Nomura)及其加密货币子公司 Laser Digital 的 2026 年数字资产机构投资者调查显示,近五分之四的受访机构投资者计划将其管理资产总额(AUM)的 2% 至 5% 配置入加密货币市场,多数机构表示计划在未来一年内进行,而非立即投资。

Market Whisper04-17 03:05

野村调查:80%的机构投资者愿意将2-5%配置给加密货币

一项野村(Nomura)调查显示,80%的机构投资者计划将2-5%的资金投向加密货币,并偏好质押(staking)和借贷(lending)等收益策略。监管清晰度和风险管理是提升机构对数字资产兴趣的关键因素。

GateNews04-16 19:11

Stablecoin Market Hits $322B ATH, Q1 2026 Trading Volume Reaches $8.3 Trillion

The stablecoin market experienced significant growth, surging $2.25 billion to reach $322 billion, despite a broader crypto market contraction. USDC saw a substantial supply increase, while USDT maintained its market share. Yield-bearing stablecoins contributed notably to this growth, with transaction activity hitting an all-time high.

GateNews04-16 19:02

以太坊基金会公布 ETH Rangers 项目成果:已追回或冻结超 5.8M 美元资产

以太坊基金会的 ETH Rangers 项目已成功完成,资助 17 名研究人员以提升生态系统中的公共安全。成果包括追回 5.8M 美元资产、识别 785+ 项漏洞,并开发多款安全工具。

GateNews04-16 14:32

2025年市场下行期间顶级加密VC管理资产大幅下滑

在2025年加密市场下行期间,主要风险投资机构的管理资产(AUM)出现显著下滑,但Haun Ventures的规模增长了30%。Paradigm和a16z正在为新基金募资超过$4.2 billion,这也凸显了各机构之间表现的差异。

GateNews04-16 11:01
评论
0/400
暂无评论