重复数据删除:用于准确可扩展的模糊匹配记录重复数据删除和实体解析的python库 源码
重复数据删除Python库 重复数据删除是一个python库,使用机器学习对结构化数据快速执行模糊匹配,重复数据删除和实体解析。 重复数据删除将帮助您: 从名称和地址的电子表格中删除重复的条目 将具有客户信息的列表链接到具有订单历史记录的列表,即使没有唯一的客户ID 收集竞选捐款的数据库,并找出同一个人所做的捐款,即使每个记录的名称输入略有不同 重复数据删除可吸收人工培训数据,并为您的数据集提供最佳规则,即使是非常大的数据库,也可以快速自动找到相似的记录。 重要连结 文档: : 仓库: : 问题: : 邮件列表: : forum/open-source- 范例:
文件列表
dedupe-master.zip
(预估有个90文件)
dedupe-master
setup.py
3KB
.gitignore
377B
requirements.txt
35B
.readthedocs.yml
547B
pyproject.toml
83B
MANIFEST.in
45B
CONTRIBUTING.md
368B
CODE_OF_CONDUCT.md
3KB
LICENSE
1KB
暂无评论