预先准备 用于数据预处理的python包 概述 数据预处理和EDA对于任何数据科学项目都是必不可少的。 EDA提供对数据集的见解,可视化和解释隐藏在数据集中的信息。 数据预处理对于获得比例尺特征以训练更好的模型并处理缺失值至关重要。 在现实世界中,数据集包含大量特征和观测值,并且期望原始数据集完美无缺且可以用于模型构建是不现实的。 该软件包旨在帮助用户执行数据插补,特征缩放和用于机器学习建模的基本探索性数据分析。 安装 $ pip install -i https://test.pypi.org/simple/ prepropy 特征 该软件包正在开发中,它将包括以下功能: Imputer:识别并处理数据框中的缺失值 估算缺失数据的类 可以处理数值和分类数据 数字缩放器:执行数字特征缩放 缩放数值特征以促进机器学习管道的无缝构建 提供从多种缩放算法中选择的功能 EDA:提取信息并可视化