UbuntuWalker:UbuntuWalker 生成源代码数据集该数据集取自Ubuntu Source ubuntu source code
动机 Ubuntu Walker是一个将Linux操作系统源代码作为输入参数的程序。 然后挖掘Ubuntu档案,并提取源代码文件。 该脚本用于生成LSC(Linux源代码)机器学习数据集。 构建该程序的主要原因是能够为源代码分类器快速生成数据集。 :construction: 如果没有GPU,则不必打扰。 该数据集是完全安全使用的。 不想运行我们的脚本,只想要数据集? 完整的数据集可从( )获得。 它有什么作用 从Linux操作系统中的.tar存档文件中提取源代码文件。 支持的tar归档文件是.bz2,.xz和.gz 根据文件扩展名对提取的文件进行分类,并将其存储在相应的文件夹中。 当前支持的分类文件类型为:Java,C,C ++,Ruby,Python,JavaScript。 数据集摘要 此脚本生成了六个不同的源代码文件夹。下面提供了数据集的简短摘要: Java Source Code文件夹-包含7
文件列表
UbuntuWalker-master.zip
(预估有个21文件)
UbuntuWalker-master
.gitignore
51B
Makefile
66B
test.txt
3KB
Dockerfile.master
483B
src
runner.rb
668B
info_runner.rb
716B
info_lister.rb
832B
list_run.rb
384B
暂无评论