broadwell_multiplication:CC ++ asm中的低级大整数算术子例程已针对Broadwell和Zen2 CPU进行了优化 源码

franchise25821 4 0 ZIP 2021-04-04 20:04:43

C / C ++ / asm中的低级大整数算术子例程。 mul8_zen()与GMP子程序gmpn_mul(,, 8, , 8)在Skylake和Ryzen上)相比快512位(8肢)。 toom22_mul16_broadwell()乘16肢数字的速度比gmpn_mul(,, 16, , 16)快。 toom22_deg2_broadwell()相较于gmpn_toom22_mul() ,k gmpn_toom22_mul()数的乘法速度更快,其中k为2的小数。 状态 工作正在进行中。 代码需要清理。 某些子例程可能无法按预期工作。 但是,如果发布了该过程的基准,则该过程将经过全面测试,并且预计不会有错误。 目前,我的代码至少在以下肢体尺寸方面胜过GMP:6、7、8、16、24、32、48、64、127。 快速开始 python2 configure.py ninja automa

用户评论
请输入评论内容
评分:
暂无评论