- 使用TF-IDF算法对新下载文件的词频与已构建的各学科语料库进行对比,通过余弦相似度计算高频词的相关系数,实现自动分类整理新下载的课件。 2. 运行环境要求为Python 3.8及以上版本,并需要安装jieba库与openpyxl库。 3. 该项目包括数据预处理、词频计算与数据处理以及数据计算与对比验证三个模块。首先,从已分好类的文件夹中采集语料库,将所有文件的内容汇总至一个txt文件,方便进行词频统计操作;然后,将各语料库与新文件的内容进行分词和计算,并将数据写入excel文档进行处理,分词部分使用jieba库,数据处理部分使用openpyxl库。最后,将分词结果,即高频词词名和频数,分别写入excel文档中,使用openpyxl库实现。得到新文档与各语料库词频数据后,使用excel中的函数对数据进行加工,将新文档的词与每个语料库进行对比,计算相关系数,并得到新文件的正确类别。 4. 对准确率进行评估。
基于TF IDF算法的个人文件管理系统包含Python源码机器学习人工智能和神经网络
文件列表
基于TF-IDF算法个人文件管理系统(附Python源码)机器学习+人工智能+神经网络.zip
(预估有个11文件)
基于TF-IDF算法个人文件管理系统(附Python源码)机器学习+人工智能+神经网络
i
样例之第二学科(通信网理论)
北邮通信网第二章信源模型和MM1排队系统习题答案.docx
133KB
期中考试-苏驷希-2017210665-杨子江.docx
17KB
样例之第一学科(通原实验)
北邮通信原理软件实验报告.docx
2.36MB
04杨子江.docx
450KB
new.txt
1KB
局部代码
暂无评论