Standard rank-revealing factorizations such as the singular value decomposition and column pivoted QR factorization are challenging to implement efficiently on a GPU. A major difficulty in this regard is the inability of standard algorithms to cast most operations in terms of the Level-3 BLAS. This paper presents two alternative algorithms for computing a rank-revealing factorization of the form $A = U T V^*$, where $U$ and $V$ are orthogonal and $T$ is triangular. Both algorithms use randomized projection techniques to cast most of the flops in terms of matrix-matrix multiplication, which is exceptionally efficient on the GPU. Numerical experiments illustrate that these algorithms achieve an order of magnitude acceleration over finely tuned GPU implementations of the SVD while providing low-rank approximation errors close to that of the SVD.


翻译:单值分解和列柱分解 QR 系数化等标准分解因子化因素化,对于在GPU上高效实施来说,具有挑战性。在这方面,一个主要困难是标准算法无法在3级BLAS上实施大多数操作。本文介绍了两种替代算法,用于计算表A=U T V ⁇ $的分解因子化,其中美元和V$为正方位和美元为三角。两种算法都使用随机预测技术,在矩阵矩阵矩阵矩阵乘法方面将大多数Flops投放到GPU上,这是特别高效的。数字实验表明,这些算法在微调的GPU执行SVD之后实现了数量级加速,同时提供了与SVD相近的低级近差。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
《科学》(20190426出版)一周论文导读
科学网
5+阅读 · 2019年4月27日
lightgbm algorithm case of kaggle(上)
R语言中文社区
8+阅读 · 2018年3月20日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
CNN模型压缩与加速算法综述
微信AI
6+阅读 · 2017年10月11日
Arxiv
4+阅读 · 2019年4月17日
Arxiv
3+阅读 · 2018年3月13日
VIP会员
相关VIP内容
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
《科学》(20190426出版)一周论文导读
科学网
5+阅读 · 2019年4月27日
lightgbm algorithm case of kaggle(上)
R语言中文社区
8+阅读 · 2018年3月20日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
CNN模型压缩与加速算法综述
微信AI
6+阅读 · 2017年10月11日
Top
微信扫码咨询专知VIP会员