每七天一个采样点,会使得每天展示所选的数据都会有所不同。一个非常直接的实现方法:先生成一串目标时间序列,从某个开始日到今天为止,每七天一个日期。把这些日期map到数据集的日期, Eg. {“2019-06-18”:“2019-06-15”…把map到的数据抽出来用pd.concat接起来。仔细检查发现,每一次合并的dataframe数据量并不小,而且总的操作次数达到上万次。所以就想如何避免高频次地使用pd.concat去合并dataframe。最终想到了一个巧妙的方法,只需要修改一下前面的第三步,把日期的map转换成dataframe,然后和原始数据集做merge操作就可以了。改进之后,所有的循环操作都在一个微数量级上,最后一个merge操作得到了所有有用的数据,运行时间在5秒左右,大大提升了性能。在加入大型DataFrame之前,重复值。

pandas 使用merge实现百倍加速的操作

pandas 使用merge实现百倍加速的操作

pandas 使用merge实现百倍加速的操作