RS最终项目 该项目旨在建议开发人员根据其源代码解决错误。 我使用了受监督的数据集[与错误相关的任何提交都有指定的作者(开发人员)]。 我使用LDA方法查找每个开发人员的domian(主题),然后根据他们的域将它们分配给bug。 另外,我使用分类方法(KNN)作为基线,将LDA的结果与基线进行比较。 对于数据集,我使用了两种方法,分别称为“ NLP”和“ AST”。 对于NLP数据集,我使用语言处理令牌生成器在源代码中提取令牌。 对于“ AST”数据集,我使用了“抽象语法树”,并将树的每个节点视为一个标记。 我在下面导入的“ Pydriller”是用来钻(刮)github存储库的库。 我从“熊