此数据是美国官方网站从用户那搜集到的匿名数据。tz字段包含的是时区信息。根据info()与value_counts()的返回结果来看,tz列存在缺失值与空值,首先填充缺失值,然后处理空值:a字段包含的是浏览器、设备与应用等信息。假设我们需要统计windows与非windows的相关量,我们要抓取a字段中的’Windows’字符串。因为a字段同样存在缺失值,这里我们选择丢弃缺失值:因为不同地区的数量差异悬殊,如果我们要更清楚得查看系统差异,还需要将数据进行归一化: 加入需要获得不同性别对于各电影的平均打分,使用透视表就可以直接得到结果:电影中会存在冷门作品,我们看一下评分数据中各