BadAgent, BadEncoder, FREEEAGLE
BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents
- LLM 后门, trigger
- 少量后门训练数据 (≤ 500 个样本) 就可以达到较高的攻击成功率
攻击方法包括:
- 主动攻击: 即直接在输入中插入触发器 trigger, 触发 agent 的恶意行为
- 被动攻击: 在环境中插入 trigger, 例如针对网页导航 agent, 在某个网页中放一个不可见的 trigger 按钮
PEFT: Parameter-Efficient Fine-Tuning 参数高效微调, 只微调大模型的一小部分参数.
实验表明, 常规防御 (试图用干净数据微调对冲有毒数据的影响) 完全无效.




