目前交通数据存在信息孤岛问题,基础数据不公开,科研人员一般通过现场实测的方式获取。为了方便研究人员采集数据以及扩大样本量,论文给出了一种Web数据获取方法。交通事故与道路线形相关性研究需要分别获取事故点文字信息和相关道路线形空间数据,然后整合。采用DeepWeb数据采集方法,获取交通事故点文字描述。针对国内地图中文语义识别较好但坐标加密,国外开源平台中文语义识别较弱但数据公开的特点,给出了将两者优点相结合的方法,通过建立国内地图和国外开源平台坐标映射关系,调用地图和平台接口,获取事故点相关道路数据。根据自动机理论,建立了状态可选的自动机模型,便于从异构的事故点相关数据源中提取道路线形数据。通