如何使用python编程语言中的jieba库对论文进行相似度比较和分类。使用001.py源码可以将原始论文转换为utf-8格式,而003.py源码则利用jieba库对训练集中的论文进行分词,并按照词汇出现频率排序并输出到文档中。同时,源文件夹中的stopwords.txt文件包含停用词库,可以用于过滤一些常用词语。004.py源码可以对论文进行相似度分析,并输出结果。该文档还提供了复旦大学中文文本分类数据集供用户选择训练集和测试集。用户只需运行001.py,完成论文格式转换,再执行003.py,将训练集中各类论文分词后生成的文档保存在List文件夹中。同时测试集中的论文需要与代码在同一目录下。最后,执行004.py可以得到论文相似度的结果。