Algorithm design must focus on minimising data movement even at the cost of more FLOPs due to the growing disparity between FLOP availability and memory bandwidth on modern architectures. We review the requirements for the Multipole to Local (M2L) operation, a sub-routine of the Kernel Independent Fast Multipole Method (kiFMM) algorithm. The kiFMM is a variant of the popular Fast Multipole Method (FMM), which accelerates the evaluation of N-body potential problems. Naively implemented, the M2L can lead to bandwidth pressure, and is therefore a key bottleneck in an FMMs. Recent software packages for the kiFMM have relied on the Fast Fourier Transform (FFT) to accelerate M2L as it can be formulated as a convolution type operation. However, parallelly developed 'black box' FMMs formulate the M2L as a BLAS operation and use direct matrix compression techniques for further acceleration. The FFT approach requires careful implementation to overcome the low operational intensity of the element-wise product inherent in its formulation, whereas the BLAS approach provides a high operational intensity formulation if the M2L is written in terms of level 3 BLAS operations. We describe algorithmic simplifications for the BLAS-based M2L operation, and show that the BLAS version of the M2L can be competitive in practice with the Fast Fourier Transform (FFT) version. We have developed a carefully optimised software implementation that allows us to flexibly switch between M2L approaches and is optimised for ARM and x86 targets, allowing for a fair comparison between both.


翻译:暂无翻译

0
下载
关闭预览

相关内容

FAST:Conference on File and Storage Technologies。 Explanation:文件和存储技术会议。 Publisher:USENIX。 SIT:http://dblp.uni-trier.de/db/conf/fast/
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员