SBIR_TFIDF_KMeans:在小型企业创新研究(SBIR)数据的TFIDF功能上使用KMeans进行文档聚类 源码
Apache Spark中的数据科学 使用TF / IDF-> K均值聚类和LSH(MinHash) SBIR 语言:Scala和Python 要求: 火花2.x 作者:伊恩·布鲁克斯(Ian Brooks) 关注[LinkedIn-Ian Brooks PhD]( ) 源数据 其他信息:小型企业创新研究(SBIR)计划是一项极具竞争力的计划,旨在鼓励国内小型企业从事具有商业化潜力的联邦研究/研究与开发(R / R&D)。 通过基于奖励的竞争性计划,SBIR使小型企业能够发掘其技术潜力,并提供从商业化中获利的动力。 通过将合格的小型企业纳入美国的研发领域,可以刺激高科技创新,并且美国在满足其特定研发需求的同时也将获得企业家精神。 文件上传:将源数据json文件上传到/ tmp目录中的HDFS 链接: IDF / TF概述: 导入数据-使用提供的Jypter Not
文件列表
SBIR_TFIDF_KMeans-master.zip
(预估有个15文件)
SBIR_TFIDF_KMeans-master
Spark TFvIDF.ipynb
566KB
tfidf_detail.png
186KB
TFIDF.jpg
65KB
sbir-search-results2.json
2.06MB
MinHashBuckets.png
20KB
featureEng.png
109KB
clusterResults.png
60KB
benchmark-minhashlsh-algorithm-on-spark-5-638.jpg
44KB
ClusterByDocs.png
78KB
暂无评论