从以上模糊匹配的结果看,Jaro Winkler和Pair letters Similarity的结果比较合适, 如果在实际工作中,大数据量的模糊匹配应该如何从中选择合适的算法?
自己写的用DataStage实现ETL,主要给初学者一个对整体的认识,同时提供了些常用的资源
一本关于ETL和DataStage的好书
etl原理.doc
ETL是异构数据库整合的最方法有效的方式,它是针对源数据的抽取,转换,加载,清洗数据的目的
大规模设计和自动化数据作业
电影-ETL 单元8挑战-ETL(提取,转换,Load_) 目的 这一挑战将Python和PostgreSQL结合在一起,从Wikipedia和Kaggle收集数据,将它们合并在一起,然后将Movie
ETL调度英文版,很详细,介绍automation是怎么的运作原理,希望使用调度的朋友可以得到一些帮助
Mysql文件参考文件
分享mysql性能优化资料