中间数据 MIDI文件的集合 清洁程序 在将数据上传到此处之前,首先(1)使用数据扫描为伪装成MIDI文件的非MIDI文件,然后(2)使用fdupes检查是否存在重复fdupes (这取决于文件的校验和,而不是文件名)。 。 通常,将分类成其类型的MIDI文件比未分类的文件更喜欢(如果需要删除一个或另一个)。 我们继续收集未排序的MIDI文件,以期希望最终找到一个能够自动确定其流派的工具,届时它们将与数据集的其余部分合并。 Cory McKay(2004)的工具也许可以做到这一点。 当前,我们将所有MIDI文件放置在与它们的源相对应的目录中,例如/sorted/midiworld.com/pop ,以保留所有MIDI文件的来源。 最终,我们将数据合并到一个填充了各种类型(例如/pop , /folk等)的扁平目录结构中。 待办事项:添加清洁MIDI文件的步骤是否已损坏。 未开发的数据