内容安全 – 伯乐青狼

我造了一台对抗样本工厂，用1000张合成图捅穿了多模态模型的内容防线，然后又逼着自己把它补上

2026年5月14日 0 次浏览

多模态大模型把图像和文本拼在一起交给LLM，让越狱攻击的门槛直线降低。我亲手造了一条自动化流水线，用1000个合成对抗样本把公司内部助手攻穿，再通过输入过滤、对抗微调与偏好对齐三管齐下，将越狱率从62%压到4%。这篇文章记录了从攻击模拟到加固防线的完整踩坑过程，适合关注AI安全的工程师。