product classification:Flipkart产品数据集上的产品分类 源码
MIDAS @ IIITD 2021年夏季实习 我尝试参加MIDAS @ IIITD 2021年夏季实习计划的任务3(NLP)。 任务的目标是主要使用产品说明来预测产品的主要类别。 资料准备 标签 数据集不直接具有主要类别属性。 但是,它包含一个名为product_category_tree的属性,使用该属性可以提取主要类别。 我注意到有些产品没有分配给主要类别。 我将此类产品分组在一起,并删除了相应的行。 此外,数据集非常不平衡。 大约30%的产品属于“服装”类别,依此类推。 因此,我只按产品数量从小到大的顺序集中在前15个类别上。 由于缺少此类训练示例,因此添加更多类别将导致准确性下降。 另一方面,如果仅考虑前5个或前10个类别,则可以提高准确性。 描述 该描述已经过如下预处理: 删除所有非字母字符和多余的空格。 将字符串转换为小写。 从字符串中删除停用词。 我spa
文件列表
product-classification-master.zip
(预估有个9文件)
product-classification-master
preprocessed.csv
5.8MB
naive_bayes.ipynb
128KB
lstm.ipynb
78KB
bert.ipynb
52KB
requirements.txt
2KB
README.md
5KB
dataset.csv
36.37MB
.gitignore
36B
setup.sh
224B
暂无评论