处理分类变量 介绍 您现在已经了解了多元线性回归背后的直觉。 伟大的! 但是,由于您将开始挖掘具有更多预测变量的更大数据集,因此您会遇到与以前所见略有不同的预测变量。 欢迎来到分类变量奇妙的世界! 目标 你将能够: 确定变量是分类变量还是连续变量 描述为什么需要虚拟变量 使用一种热编码来创建虚拟变量 自动mpg数据 在本节中,您将看到使用auto-mpg数据集为多元线性回归准备数据的几个元素,该数据集包含汽车的技术规格。 有抱负的数据科学家经常使用此数据集,他们希望使用多个预测变量进行线性回归。 通常, mpg列(“英里/加仑”)是因变量,我们想知道的是数据集中的其他列(“预测变量”)如何影响mpg。 让我们看一下数据: import pandas as pd data = pd . read_csv ( 'auto-mpg.csv' ) # First convert horsepo