预测下一个词-语言建模Capstone项目。该项目的目的是构建一个自然语言模型,在用户指定的单词序列中建议一个合适的下一个未见过的单词。使用推特新闻博客这三种类型的数据来训练模型。应用适当的数据清理和子集技术来最终确定训练数据。然后使用干净的数据集创建各种单词组合(N-Grams),并开发了一种预测算法(Katz Back-off)来预测下一个单词。最终的预测模型经过适当优化以适合作为Shiny应用程序。

包含的文件:

  • ProduceNGrams.R:管理输入数据并创建干净的数据集。

  • PredNextTerm.R:包括Katz的退避算法。

  • CleanInputString.R:过滤用户输入的句子。

  • Test_PredNextTerm.R:测试程序。

  • server.Rui.R:闪亮的应用程序。

  • fDF1.RData等:四个压缩的R输入数据文件。