1. 使用TF-IDF算法对新下载文件的词频与已构建的各学科语料库进行对比,通过余弦相似度计算高频词的相关系数,实现自动分类整理新下载的课件。 2. 运行环境要求为Python 3.8及以上版本,并需要安装jieba库与openpyxl库。 3. 该项目包括数据预处理、词频计算与数据处理以及数据计算与对比验证三个模块。首先,从已分好类的文件夹中采集语料库,将所有文件的内容汇总至一个txt文件,方便进行词频统计操作;然后,将各语料库与新文件的内容进行分词和计算,并将数据写入excel文档进行处理,分词部分使用jieba库,数据处理部分使用openpyxl库。最后,将分词结果,即高频词词名和频数,分别写入excel文档中,使用openpyxl库实现。得到新文档与各语料库词频数据后,使用excel中的函数对数据进行加工,将新文档的词与每个语料库进行对比,计算相关系数,并得到新文件的正确类别。 4. 对准确率进行评估。