README.md文档 spark入门联系wordcount等相关操作文档~ Spark is a fast and general cluster computing system for Big Data. It provideshigh-level APIs in Scala, Java, Python, and R
tfrecord数据.zip tensorflow实战场景tfrecord方式读取数据的数据样本,现在tensorflow架构里限制整个流程瓶颈的是数据IO,用Queue机制异步的方式(生产者消费者模式)实现数据IO可以高效完成数据的预处理和读取,有效利用GPU资源。
test_ctr.zip 贝叶斯平滑机制计算ctr更能反映物品的点击率,用矩估计估计出来的参数alpha和beta,再把相应的给ctr计算做平滑,实验证明,使用该平滑机制计算的ctr更能反应物品的热度。
cnews.zip新浪新闻RSS订阅频道10类文本数据 数据集是清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成。数据集一共包括10类新闻,每类新闻65000条文本数据,训练集50000条,测试集10000条,验证集5000条。