Ta上传的资源 (0)

用于超大文件的快速排序,相比比谁的速度更快,占用内存更少,该排序文件经得起你的考验,目前设计的处理能力为40亿行文本的排序。最近更新加入了去重操作。

这个是我个人C++实现的基于FP_growth实现的关联规则挖掘的Apriori算法。跑起来速度是相当的快。但是有效Item在2000多的时候,共现Items数就达到了132万,基于2w个条目,平均条目长度50-60的时候,基本上要产生几十G的容量,尽管保存的是ID。吃掉了我40G的空间,还是没有跑