朝着自动系统检测政治媒体中的虚假信息 介绍 根据各种因素,任何信息都可以是真实的或虚假的。 在此项目中,我们在两个基准数据集上使用深度学习和NLP技术将一段文本分类为真实或伪造。 请查看最终报告以查看有关体系结构和性能指标的更多信息。 说谎者 LIAR数据集有6种不同的类别,从True到Pants fire。 假新闻网 FNN有两个不同的类。 真实和虚假。 分词器 我们使用pyTorch的BERT标记工具。 我们删除了TF-IDF表示的停用词,并保留了双字TF-IDF的停用词。 嵌入 对于骗子 TF-IDF用于基线逻辑回归 Google新闻针对神经体系结构的Word2vec 300量纲 假新