HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件,并通过可视化地拖拽,快速地进行生成,过滤,转换等操作。其功能最适合的领域,是爬虫和数据清洗。Hawk的含义为“鹰”,能够高效,准确地捕杀猎物。HAWK使用C#编写,其前端界面使用WPF开发,支持插件扩展。通过图形化操作,能够快速建立解决方案。GitHub地址:https://github.com/ferventdesert/Hawk其Python等价的实现是etlpy:http://www.cnblogs.com/buptzym/p/5320552.html笔者专门为其开发的工程文件已公开在GitHub:https://githu