KERMIT4NLI 项目数据集 MultiNLI ( ) 本文介绍了多体类自然语言推理(MultiNLI)语料库,该数据集旨在用于开发和评估用于句子理解的机器学习模型。 在433k的示例中,此资源是可用于自然语言推理(又名识别文本蕴含)的最大语料库之一,从而在覆盖范围和难度上都改进了可用资源。 MultiNLI通过提供十种不同的英语书面和口语数据来实现这一目标,从而可以在几乎整个语言复杂性的情况下评估系统,同时为评估跨类型领域的适应性提供了明确的设置。 此外,使用为斯坦福NLI语料库设计的现有机器学习模型进行的评估表明,尽管这两个语料库之间的注释者之间的协议水平相似,但它比该语料库所代表的任务要困难得多。 汉斯( ) 机器学习系统可以依靠对常见示例类型有效但在更具挑战性的情况下会失败的启发式方法,在给定的测试集上获得良好的评分。 我们在自然语言推论(NLI)中研究此问题,这是确