NLP-Casestudy 原始数据 我们导入了Bigfoot数据文件。 在JSON中,我们找到了包含_id,#URL,HTML和时间的字典。 我们将精力集中在HTML字典键值上,该键值包含大脚目击事件的第一手资料。 文字处理 -为了解析我们的数据,我们使用Beautiful soupHTML解析器在内容中找到“ p”,以分隔段落的开头和结尾。 -这给我们留下了4405个观察到的帐户。 滚雪球:我们过去常常说出他们的话。 使用词网的同义词和同义字连接词网 机器学习算法 -K表示聚类,以在目击的单词中找到聚类 在8个群集中,我们发现了每个群集的主要功能: 0:树,鹿,步道,听到的,区域,喜欢,树林,狩猎,公正,卡车 1:轨迹,打印,打印,英寸,雪,脚,轨迹,脚趾,脚印,面积 2:道路,锯子,汽车,汽车,生物,高大,看起来,只是,头发, 3:房子,窗户,门,外面,听见的,像,夜,去,狗,