broadwell_multiplication:CC ++ asm中的低级大整数算术子例程已针对Broadwell和Zen2 CPU进行了优化 源码
C / C ++ / asm中的低级大整数算术子例程。 mul8_zen()与GMP子程序gmpn_mul(,, 8, , 8)在Skylake和Ryzen上)相比快512位(8肢)。 toom22_mul16_broadwell()乘16肢数字的速度比gmpn_mul(,, 16, , 16)快。 toom22_deg2_broadwell()相较于gmpn_toom22_mul() ,k gmpn_toom22_mul()数的乘法速度更快,其中k为2的小数。 状态 工作正在进行中。 代码需要清理。 某些子例程可能无法按预期工作。 但是,如果发布了该过程的基准,则该过程将经过全面测试,并且预计不会有错误。 目前,我的代码至少在以下肢体尺寸方面胜过GMP:6、7、8、16、24、32、48、64、127。 快速开始 python2 configure.py ninja automa
文件列表
broadwell_multiplication:CC ++ asm中的低级大整数算术子例程,已针对Broadwell和Zen2 CPU进行了优化
(预估有个120文件)
benchmark_toom22_xx.cpp
2KB
test_mpn_mul2_add.cpp
2KB
test_mul_n_zen_4arg.c
445B
test_shr.cpp
3KB
benchmark-internal-align.c
2KB
test_mpn_sub_inplace.cpp
2KB
test_toom22_xx.cpp
3KB
test_mpn_sub.cpp
2KB
test_toom22_generic.cpp
3KB
test_mpn_sub_4k.cpp
2KB
暂无评论