Github full data set:生成GitHub数据(〜1M存储库2017年5月) 源码
Github存储库数据集 从GitHub刮取了超过100万个存储库! 1M数据集 数据集(TXT格式)位于: 记录的字段是: 名称 clone_url created_at 货叉(FORKS) has_issues 语言(计算机语言) subscriptions_count(WATCH) watchers_count(STARTS) stargazers_count 尺寸 由于大小限制,我不得不将可用标签缩小到上述范围。 我提供了10万个数据集的所有标签(对于10万个对象,大约260Mb)。 另外,如果您自己抓取数据,则可以拥有所有标签。 以下是更多信息。 统计/机器学习思
文件列表
Github-full-data-set-master.zip
(预估有个10文件)
Github-full-data-set-master
data_100k
xab
95MB
xaa
95MB
xac
72.43MB
convert_to_txt.py
1KB
data_1m
GITHUB.1M.txt
91.07MB
requirements.txt
15B
LICENSE
11KB
暂无评论