我造了一台对抗样本工厂,用1000张合成图捅穿了多模态模型的内容防线,然后又逼着自己把它补上

多模态大模型把图像和文本拼在一起交给LLM,让越狱攻击的门槛直线降低。我亲手造了一条自动化流水线,用1000个合成对抗样本把公司内部助手攻穿,再通过输入过滤、对抗微调与偏好对齐三管齐下,将越狱率从62%压到4%。这篇文章记录了从攻击模拟到加固防线的完整踩坑过程,适合关注AI安全的工程师。