当前,以Hadoop、Spark为代表的大数据处理框架,已经在学术界和工业界被广泛应用于大规模数据的处理和分析.这些大数据处理框架采用分布式架构,使用Java、Scala等面向对象语言编写,在集群节点上以Java虚拟机(JVM)为运行时环境执行计算任务,因此依赖JVM的自动内存管理机制来分配和回收数据对象.然而,当前的JVM并不是针对大数据处理框架的计算特征设计的,在实际运行大数据应用时经常出现垃圾回收(GC)时间长、数据对象序列化和反序列化开销大等问题.在一些大数据场景下,JVM的垃圾回收耗时甚至超过应用整体运行时间的50%,已经成为大数据处理框架的性能瓶颈和优化热点.本文对近年来相关领域的研究成果进行了系统性综述:(1)总结了大数据应用在JVM中运行时性能下降的原因;(2)总结了现有面向大数据处理框架的JVM优化技术,对相关优化技术进行了层次划分,并分析比较了各种方法的优化效果、适用范围、使用负担等优缺点;(3)探讨了JVM未来的优化方向,有助于进一步提升大数据处理框架的性能.

http://www.jos.org.cn/jos/article/abstract/6502

成为VIP会员查看完整内容
17

相关内容

面向知识图谱的知识推理综述
专知会员服务
152+阅读 · 2021年11月1日
专知会员服务
140+阅读 · 2021年3月30日
基于机器学习的数据库技术综述
专知会员服务
55+阅读 · 2021年1月2日
专知会员服务
51+阅读 · 2020年11月20日
专知会员服务
109+阅读 · 2020年10月27日
PySpark和大数据处理初探
Python程序员
7+阅读 · 2019年10月10日
Perseus(擎天):统一深度学习分布式通信框架
云栖社区
4+阅读 · 2019年3月10日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
群智协同计算:研究进展与发展趋势
中国计算机学会
4+阅读 · 2018年2月1日
精华 | 深度学习中的【五大正则化技术】与【七大优化策略】
机器学习算法与Python学习
5+阅读 · 2017年12月28日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
7+阅读 · 2018年3月22日
VIP会员
相关VIP内容
面向知识图谱的知识推理综述
专知会员服务
152+阅读 · 2021年11月1日
专知会员服务
140+阅读 · 2021年3月30日
基于机器学习的数据库技术综述
专知会员服务
55+阅读 · 2021年1月2日
专知会员服务
51+阅读 · 2020年11月20日
专知会员服务
109+阅读 · 2020年10月27日
相关资讯
PySpark和大数据处理初探
Python程序员
7+阅读 · 2019年10月10日
Perseus(擎天):统一深度学习分布式通信框架
云栖社区
4+阅读 · 2019年3月10日
面向云端融合的分布式计算技术研究进展与趋势
中国计算机学会
19+阅读 · 2018年11月27日
群智协同计算:研究进展与发展趋势
中国计算机学会
4+阅读 · 2018年2月1日
精华 | 深度学习中的【五大正则化技术】与【七大优化策略】
机器学习算法与Python学习
5+阅读 · 2017年12月28日
相关论文
微信扫码咨询专知VIP会员