双重扰动:稳健性和反事实偏差评估 健壮性和反事实偏见通常在测试数据集上进行评估。 但是,这些评估是否可靠? 换句话说,如果模型在测试集上是健壮的或没有偏见的,那么在稍微受干扰的测试集下属性是否仍将保持? 在本文中,我们提出了一个“双重扰动”框架来发现测试数据集之外的模型弱点。 该框架首先扰动测试数据集以构建与测试数据相似的丰富自然语句,然后诊断有关单个单词替换的预测变化。 我们将此框架应用于研究两种基于扰动的方法,这些方法用于分析模型的鲁棒性和反事实偏见。 在实验中,我们的方法在找到易受攻击的示例中获得了很高的成功率(96.0%-99.8%),并且能够揭示隐藏的模型偏差。 更多细节可以在我们的论文中找到: 张冲,赵洁玉,张欢,张开伟和谢祖瑞,“双重扰动:稳健性和反事实偏见评估”,NAACL 2021 设置 验证环境: Ubuntu的20.04 NVIDIA GeForce RTX 3