基于新闻的股票每日价格预测动机:传统的技术交易只考虑影响股价的定量而非定性因素。众所周知,新闻对股票指数和价格有重大影响。为了做出更好的预测,我们在模型中将定量方法与标题NLP特征分析相结合。

项目总结

  1. 将原始HTML新闻数据转换为用于意见挖掘的NLP特征。

  2. 使用Java中的Map Reduce算法构建线性回归模型

  3. Lasso选择的特征使用NLP特征和数值数据预测股票。

软件包

  • informationFromHTML.py是一个Python工具,用于将HTML新闻数据加载到TEXT文件中以供进一步使用。

  • part-r-00000和dictionary.file-0是经过序列到向量处理后从Mahout输出的原始类型数据。

  • VectorLoader.java是一个Java程序,用于将原始向量加载到线性回归的可读意见挖掘表。