预测下一个词-语言建模Capstone项目。该项目的目的是构建一个自然语言模型,在用户指定的单词序列中建议一个合适的下一个未见过的单词。使用推特、新闻和博客这三种类型的数据来训练模型。应用适当的数据清理和子集技术来最终确定训练数据。然后使用干净的数据集创建各种单词组合(N-Grams),并开发了一种预测算法(Katz Back-off)来预测下一个单词。最终的预测模型经过适当优化以适合作为Shiny应用程序。
包含的文件:
-
ProduceNGrams.R:管理输入数据并创建干净的数据集。
-
PredNextTerm.R:包括Katz的退避算法。
-
CleanInputString.R:过滤用户输入的句子。
-
Test_PredNextTerm.R:测试程序。
-
server.R和ui.R:闪亮的应用程序。
-
fDF1.RData等:四个压缩的R输入数据文件。
暂无评论