多轮自动红队方法(MART)通过迭代生成对抗性提示和安全响应来提高大型语言模型(LLMs)的安全性。每次迭代中,生成具有挑战性的对抗性提示,目标模型通过安全对齐数据进行细调,减少不安全的响应。经过4轮迭代,MART可将有限安全对齐的LLM的违规率降低高达84.7%,且不影响模型在非对抗性提示上的表现。

该方法适用于提升大语言模型安全性的场景,特别是在在线对话系统、虚拟助手等应用中,目标是显著降低模型生成有害内容的风险,同时保持其功能性。尽管MART在多轮迭代中表现优异,进一步的安全提升仍需结合人工红队和更多数据支持。实验结果表明,数据量和方法的不同会影响模型性能。