基于新闻的股票每日价格预测动机:传统的技术交易只考虑影响股价的定量而非定性因素。众所周知,新闻对股票指数和价格有重大影响。为了做出更好的预测,我们在模型中将定量方法与标题NLP特征分析相结合。
项目总结:
-
将原始HTML新闻数据转换为用于意见挖掘的NLP特征。
-
使用Java中的Map Reduce算法构建线性回归模型。
-
Lasso选择的特征使用NLP特征和数值数据预测股票。
软件包:
-
informationFromHTML.py是一个Python工具,用于将HTML新闻数据加载到TEXT文件中以供进一步使用。
-
part-r-00000和dictionary.file-0是经过序列到向量处理后从Mahout输出的原始类型数据。
-
VectorLoader.java是一个Java程序,用于将原始向量加载到线性回归的可读意见挖掘表。
暂无评论