商品价格预测的文本特征工程方法
该项目是基于kaggle竞赛所开展的,主要采用了数据清洗、文本特征处理和机器学习模型预测三大步骤,旨在预测商品价格。在数据清洗后,通过正则表达式、Porter Stemmer和TF-IDF统计等多种技术来进行文本特征工程,实现了对商品描述文本和数值表现的有效提取。而在模型预测方面,我们选取了Ridge、LightGBM和MLP三种机器学习模型来进行训练和测试,并使用MSLE进行最终的预测结果评估。详细信息可参考https://www.kaggle.com/competitions/mercari-price-suggestion-challenge。