minet是一个用于python的webmining CLI工具和库,可用于从各种Web来源(例如原始网页,Facebook,CrowdTangle,YouTube,Twitter,Media Cloud等)收集和提取数据。 通过让您从命令行舒适的角度执行各种操作,它采用了低保真的方法来解决各种Webmining问题。 无需数据库:原始数据文件(例如CSV)应该足以完成工作。 此外, minet还将其高级编程接口公开为python库,因此您可以随意调整其行为。 快捷方式:, ,。 用例 非常快速地下载大量网址。 () 编写刮板以从HTML页面提取结构化数据。 编写搜寻器以自动浏览网络。 从HTML页面提取原始文本内容。 ( ) 标准化CSV文件中包含的一批URL,以执行相关的聚合(删除不相关的查询项,提取域名等)() 根据包含需要匹配的URL的列连接两个CSV文件( )。