我让两个LLM互相攻击了三个月,才看清安全评测自动化的七寸在哪里——一个红队框架的架构决策全记录

去年第四季度,我们业务线的三次安全事件全部跟大模型相关。第一次,客服Agent被用户用三句话套出了内部折扣码的生成规则;第二次,知识库RAG在用户刻意构造的连环追问下,吐出了未授权的合同模板片段;第三次最离谱——一条看似正常的售后投诉,夹带了编码过的提示注入,让我们的订单系统把一批退款全部改成了“系…