小经事的所有下载-用户-卡了网

underexpose_train.zip

用户点击的item序列embedding使用数据,类似一句话是一个文本序列,通常可以直接使用word2vec编码,同样可以对用户点击物品id序列进行编码。

README.md文档

spark入门联系wordcount等相关操作文档~ Spark is a fast and general cluster computing system for Big Data. It provideshigh-level APIs in Scala, Java, Python, and R

数据集demo word.sh.zip

google-code的word2vec训练工具配套数据，demo-word.sh

cooking.stackexchange.tar.gz

Stack exchange 网站的烹饪部分下载问题示例及其相应标签数据集，用于fastText模型训练

tfrecord数据.zip

tensorflow实战场景tfrecord方式读取数据的数据样本，现在tensorflow架构里限制整个流程瓶颈的是数据IO，用Queue机制异步的方式(生产者消费者模式)实现数据IO可以高效完成数据的预处理和读取，有效利用GPU资源。

test_ctr.zip

贝叶斯平滑机制计算ctr更能反映物品的点击率，用矩估计估计出来的参数alpha和beta，再把相应的给ctr计算做平滑，实验证明，使用该平滑机制计算的ctr更能反应物品的热度。

cnews.zip新浪新闻RSS订阅频道10类文本数据

数据集是清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成。数据集一共包括10类新闻，每类新闻65000条文本数据，训练集50000条，测试集10000条，验证集5000条。

SI4安装及破解文件.zip

非常好用的适合撰写如C/C++或Java等程序语言的编辑器，可以自动列出程序的变量，量数等。