scc411 project:Hadoop项目的Python代码 源码
SCC411大学项目 用于数据预处理和分析的Python代码 重现已清理,合并的数据集的步骤 创建文件夹“ Google-Data-411”和“预处理” 将所有群集跟踪数据集放置在“ Google-Data-411”中 将'pre-processing.ipynb'放置在'Pre-processing'文件夹中 运行“ pre-processing.ipynb”中的所有代码块 可以在“预处理”文件夹中的.csv文件中找到经过清洁,预处理的数据 还向存在taskIndex和jobID的数据集添加一个processID列(表示正在运行的唯一软件) Cleaner.py 适当地预处理文件(作业事件,任务事件,任务使用情况,机器事件) 用法示例“ python3 Cleaner.py --jobevents jobfile.csv”或“ python Cleaner.py --taskeve
文件列表
scc411-project-main.zip
(预估有个5文件)
scc411-project-main
AutomateHive.py
3KB
README.md
2KB
Cleaner.py
3KB
pre-processing.ipynb
52KB
HiveQuery.py
2KB
暂无评论