racing_analysis:抓取并分析跑步比赛的结果 源码
racing_analysis 该项目的目标是对跑步比赛进行一些分析。 作为跑步者,这是个人的兴趣,也是尝试一些新事物的有趣项目。 问题 所有跑步者都来自哪里? 我们可以映射吗? (是的,请参见下文。) 我附近的跑步者(或任何个人)从何而来? 我们可以映射吗? 数据采集 竞赛结果是公开可用的,详细程度因种族而异。 该存储库包括用于获取比赛数据的基于Selenium的抓取工具。 由于不同种族之间可用的数据可能会有所不同,因此刮板设计为可以灵活查找所需的数据。 它通过按围兜号码请求特定比赛的结果来工作,前提是我们已经知道了完成者的围兜号码范围。 比赛的范围从几百名选手到55,000多名选手。 地理编码 我对nominatim使用了geopy(因为它是免费的)。 这里的一个有用的教训是:如果国家名称是拼写而不是缩写,则Nominatim在国际地址方面做得更好。例如,“意大利”比“ ITA”好
文件列表
racing_analysis-main.zip
(预估有个8文件)
racing_analysis-main
.gitignore
435B
README.md
2KB
03_geocoding
Geocoder.ipynb
394KB
country_code_converter.ipynb
4KB
02_EDA
racing_EDA.ipynb
253KB
2019_NYCM_finishers_clustermap.png
574KB
01_data_acquisition
暂无评论