动机 Ubuntu Walker是一个将Linux操作系统源代码作为输入参数的程序。 然后挖掘Ubuntu档案,并提取源代码文件。 该脚本用于生成LSC(Linux源代码)机器学习数据集。 构建该程序的主要原因是能够为源代码分类器快速生成数据集。 :construction: 如果没有GPU,则不必打扰。 该数据集是完全安全使用的。 不想运行我们的脚本,只想要数据集? 完整的数据集可从( )获得。 它有什么作用 从Linux操作系统中的.tar存档文件中提取源代码文件。 支持的tar归档文件是.bz2,.xz和.gz 根据文件扩展名对提取的文件进行分类,并将其存储在相应的文件夹中。 当前支持的分类文件类型为:Java,C,C ++,Ruby,Python,JavaScript。 数据集摘要 此脚本生成了六个不同的源代码文件夹。下面提供了数据集的简短摘要: Java Source Code文件夹-包含7