智能体安全相关论文阅读

发表于 2026-02-25 更新于 2026-04-12 分类于科研

Not what you’ve signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection#

间接提示词注入 (IPI), 把攻击内容放在检索数据中, 模型很难防御.

威胁:

隐藏注入技术:

作者还注意到了三点:

现有的防御机制主要针对单智能体, 忽略了 MAS 中智能体之间通过拓扑结构进行交互的特性. 如果一个智能体被攻击, 它产生的恶意信息会通过通信网络传播并感染其他正常的智能体.

G-Safeguard 引入了一种基于拓扑引导的「检测与修复」范式.

构建多智能体话语图 (Multi-agent Utterance Graph):
- 在每一轮对话结束时, 系统会将智能体作为图的节点 (nodes), 将它们之间的交互历史作为边 (edges), 构建出一个动态的通信图 .
- 节点的特征提取自智能体的历史记录, 而边的特征则编码了智能体之间传递的具体话语 .
基于图的攻击检测 (Graph-based Attack Detection):
- G-Safeguard 将攻击检测形式化为图上的节点分类问题 (node classification problem) .
- 它利用图神经网络 (Graph Neural Network, GNN) 对节点和边的特征进行迭代更新, 通过感知智能体之间的信息流, 精准识别出表现异常, 可能被攻击的高风险智能体 .
通过边缘剪枝进行修复 (Edge Pruning for Remediation):
- 一旦检测到受损的智能体, G-Safeguard 会实施拓扑干预, 即切断 (剪枝) 这些高风险节点向外发送信息的边缘 (outgoing edges) .
- 这种针对性的边缘剪枝能有效阻断对抗性恶意信息的进一步传播, 保证剩余智能体之间的无污染通信 .

效果:

防御效果显著: 在多种常见的拓扑结构 (Chain/链状, Tree/树状, Star/星状, Random/随机) 和不同的攻击策略下, G-Safeguard 都能大幅降低攻击成功率 (Attack Success Rate, ASR) . 例如, 在应对提示词注入攻击时, 它帮助系统恢复了超过 40% 的性能 .
规模扩展性强 (Scalability): 得益于图神经网络的归纳学习能力, 在一个仅有 8 个智能体的小型 MAS 上训练出的 G-Safeguard, 可以直接应用于包含高达 80 个智能体的大规模 MAS 中, 且无需重新训练即可保持稳定的防御性能 .
跨模型通用性与实际应用: 该框架不仅能适应多种底层 LLM (如 GPT-4o, LLaMA-3.1-70b, Claude-3.5, Deepseek 等), 还能无缝集成到如 CAMEL 这样真实世界的主流多智能体框架中, 并在基准测试中保持 80% 以上的攻击者识别准确率 .

防御必须在 adaptive attacker 面前评估, 攻击者应当知道防御设计, 针对防御优化攻击策略, 且拥有足够算力.

所有 adaptive attack 都可以抽象为一个循环:

现有的防御都非常脆弱, 作者呼吁采用更科学的评估方法.