大模型红队测试 – 伯乐青狼

我让两个LLM互相攻击了三个月，才看清安全评测自动化的七寸在哪里——一个红队框架的架构决策全记录

2026年6月4日 25 次浏览

去年第四季度，我们业务线的三次安全事件全部跟大模型相关。第一次，客服Agent被用户用三句话套出了内部折扣码的生成规则；第二次，知识库RAG在用户刻意构造的连环追问下，吐出了未授权的合同模板片段；第三次最离谱——一条看似正常的售后投诉，夹带了编码过的提示注入，让我们的订单系统把一批退款全部改成了“系…