关于 我最初是在一段时间前开始这个项目的,目的是获取有关建筑物能源使用的2016年纽约基准测试法数据,并对此做一些有趣的事情。 经过几次迭代后,我认为看看是否可以通过查看建筑物的年龄,用水量以及其他能耗指标来预测建筑物中温室气体的排放量可能会很有趣。 最终,该项目的目的是使用诸如以下各项的最新工具,使用具有异常值和缺失值的真实世界数据集在云上构建和部署模型。 笔记本概述 GreenBuildings1:探索性分析和异常值消除 在第一篇博文中,我将介绍如何执行数据清理的基础知识,包括: 探索性数据分析 识别和删除异常值 由于我将花费数天的时间并使用完成该项目,因此我将介绍使用存储数据集的基础知