缺少词定位器介绍:这是一个使用Kaggle的Billion Word Imputation数据集的缺失词定位项目。我们最初希望完成整个十亿字估算挑战,但在预测句中单词位置及其内容的过程中遇到了计算资源和时间上的限制。因此,我们专注于句子中定位缺失词的问题。通过以下两种方法来实现:

  1. 平均感知器:利用棕色聚类对词进行聚类。这一方法在缺词定位中的准确率达到了50%左右。

  2. 马尔可夫链模型:使用长距离二元组并基于n-gram特征进行预测。这一方法的成功率在30%左右。

我们发现,平均感知器在定位缺失词方面的表现优于马尔可夫链模型,但随着数据规模的扩大,优化算法的需求更为迫切。