Skeleton-based Graph Convolutional Networks (GCNs) models for action recognition have achieved excellent prediction accuracy in the field. However, limited by large model and computation complexity, GCNs for action recognition like 2s-AGCN have insufficient power-efficiency and throughput on GPU. Thus, the demand of model reduction and hardware acceleration for low-power GCNs action recognition application becomes continuously higher. To address challenges above, this paper proposes a runtime sparse feature compress accelerator with hybrid pruning method: RFC-HyPGCN. First, this method skips both graph and spatial convolution workloads by reorganizing the multiplication order. Following spatial convolution workloads channel-pruning dataflow, a coarse-grained pruning method on temporal filters is designed, together with sampling-like fine-grained pruning on time dimension. Later, we come up with an architecture where all convolutional layers are mapped on chip to pursue high throughput. To further reduce storage resource utilization, online sparse feature compress format is put forward. Features are divided and encoded into several banks according to presented format, then bank storage is split into depth-variable mini-banks. Furthermore, this work applies quantization, input-skipping and intra-PE dynamic data scheduling to accelerate the model. In experiments, proposed pruning method is conducted on 2s-AGCN, acquiring 3.0x-8.4x model compression ratio and 73.20\% graph-skipping efficiency with balancing weight pruning. Implemented on Xilinx XCKU-115 FPGA, the proposed architecture has the peak performance of 1142 GOP/s and achieves up to 9.19x and 3.91x speedup over high-end GPU NVIDIA 2080Ti and NVIDIA V100, respectively. Compared with latest accelerator for action recognition GCNs models, our design reaches 22.9x speedup and 28.93\% improvement on DSP efficiency.


翻译:以Skeleton为基础的基于 Scleton 的图表变速网络(GCNs) 行动识别模型(GCNs) 已经在实地实现了极好的预测准确性。 但是,由于大模型和计算复杂性的限制, 2s-AGCN 等用于行动的GCN 行动识别GPU没有足够的动力效率和吞吐量。 因此,对低功率 GCN 动作识别应用程序的模型减少和硬件加速需求不断提高。 为了应对上述挑战,本文件建议建立一个运行时间稀少的功能压缩缩压加速器,配有混合处理法: RFC-HyPGCNCN。 首先,这一方法通过重组倍增量顺序, 图形和空间变速重的重量都跳过图表和空间变速。 在空间变速工作量变速速度中, 3. OP- 8SDFS 运行数据流动数据流流流流流流流流量数据流流流流流量数据流流量数据流流流流后, 预示着22个变速的GPEPEO 格式。

0
下载
关闭预览

相关内容

Google-EfficientNet v2来了!更快,更小,更强!
专知会员服务
19+阅读 · 2021年4月4日
专知会员服务
38+阅读 · 2021年3月31日
近期必读的六篇 ICML 2020【对比学习】相关论文
专知会员服务
57+阅读 · 2020年9月15日
专知会员服务
61+阅读 · 2020年3月19日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
人工智能 | ACCV 2020等国际会议信息5条
Call4Papers
6+阅读 · 2019年6月21日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
计算机 | USENIX Security 2020等国际会议信息5条
Call4Papers
7+阅读 · 2019年4月25日
计算机类 | ISCC 2019等国际会议信息9条
Call4Papers
5+阅读 · 2018年12月25日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Arxiv
4+阅读 · 2020年3月27日
Deformable ConvNets v2: More Deformable, Better Results
Arxiv
3+阅读 · 2017年10月1日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员