从网站、API、数据库和电子表格中获取数据 对纯文本、CSV、HTML/XML和JSON格式数据进行清洗 探索数据,计算描述性统计信息,进行可视化呈现 管理数据科学工作流 使用单行命令和已有的Python或R代码创建可重用的命令行工具 实现数据密集管道的并行化和分布化 使用降维、聚类、回归和分类算法对数据进行建模