抄袭检测 该项目的目的是基于创建的数据集训练(和测试)窃检测算法。 克拉夫和史蒂文森构造了一个包含答案的语料库,在其中模拟了simulated窃行为。 该数据集的主要好处是包含4种不同类型的窃:近距离复制,轻度修订,重度修订,非gia窃。 该数据的创建解决了pla窃检测文献中持久存在的问题,即无法获得genuine窃作品的真实示例。 背景 education窃对教育机构来说是一个日益严重的问题。 有一些工具可以帮助检测它。 但是,在无法访问可靠数据的情况下,测试其有效性是一个挑战。 由于存在获取real窃文本的真实示例的问题,构建用于检测pla窃作品的工具的任务并不简单。 正如Clough和Stevenson(2011)所述,妨碍获得可靠的窃标签数据的主要问题是: 窃的文字不希望被识别,窃者不太可能承认自己的行为。 如果由于法律和道德问题而检测到detected窃文本,则可能无法