distributed computing pyspark:使用PySpark进行分布式计算 源码
分布式计算-PySpark 该存储库包含有关在Python中使用Spark进行分布式计算的微型项目。 文本分析:PySpark中的逐点相互信息 计算文本文件中出现的所有单词的一个或多个标记的PMI。 图/网络分析:PySpark中的个性化PageRank算法 实现PageRank算法的修改版本,其中参照给定的源节点执行排名。 修改有两个方面: 随机仅跳到源节点 由于节点悬空而造成的质量损失将完全转移到源节点,而不是在整个图形上重新分配 使用Spark数据帧和Spark SQL查询TPCH
文件列表
distributed-computing-pyspark-master.zip
(预估有个13文件)
distributed-computing-pyspark-master
spark_streaming.ipynb
20KB
simple_tokenize.py
244B
sql_spark_dataframes.ipynb
34KB
spam_classification_sgd_spark.ipynb
106KB
desktop.ini
132B
.vscode
desktop.ini
132B
settings.json
70B
Shakespeare.txt
5.08MB
暂无评论