Pandas最初发布于2008年,使用Python、Cython和C编写的。使用语法和Pandas差不多,处理数据的速度却比Pandas快了不少。Polars存在两种API,一种是Eager API,另一种则是Lazy API。其中Eager API和Pandas的使用类似,语法差不太多,立即执行就能产生结果。安装成功后,开始测试,比较Pandas和Polars处理数据的情况。使用某网站注册用户的用户名数据进行分析,包含约2600万个用户名的CSV文件。Polars只花费了约10s,这意味着Polars比Pandas快了2.7倍。可以是大家在未来处理数据时,另一种选择~当然,Pandas目前历时12年,已经形成了很成熟的生态,支持很多其它的数据分析库。Polars则是一个较新的库,不足的地方还有很多。如果你的数据集对于Pandas来说太大,对于Spark来说太小,那么Polars便是你可以考虑的一个选择。
暂无评论