Machine Learning (ML) has already fundamentally changed several businesses. More recently, it has also been profoundly impacting the computational science and engineering domains, like geoscience, climate science, and health science. In these domains, users need to perform comprehensive data analyses combining scientific data and ML models to provide for critical requirements, such as reproducibility, model explainability, and experiment data understanding. However, scientific ML is multidisciplinary, heterogeneous, and affected by the physical constraints of the domain, making such analyses even more challenging. In this work, we leverage workflow provenance techniques to build a holistic view to support the lifecycle of scientific ML. We contribute with (i) characterization of the lifecycle and taxonomy for data analyses; (ii) design principles to build this view, with a W3C PROV compliant data representation and a reference system architecture; and (iii) lessons learned after an evaluation in an Oil & Gas case using an HPC cluster with 393 nodes and 946 GPUs. The experiments show that the principles enable queries that integrate domain semantics with ML models while keeping low overhead (<1%), high scalability, and an order of magnitude of query acceleration under certain workloads against without our representation.


翻译:最近,它也深刻地影响计算科学和工程领域的计算科学和工程领域,如地球科学、气候科学和健康科学。在这些领域,用户需要结合科学数据和ML模型进行全面的数据分析,以提供关键要求,如可复制性、模型解释性和实验数据理解。然而,科学ML是多学科的,差异性,受到域内物理限制的影响,使这种分析更具挑战性。在这项工作中,我们利用工作流程源技术来构建一个整体观点,以支持科学ML的生命周期。我们协助(一) 确定生命周期和数据分析分类;(二) 设计构建这一观点的原则,包括W3C PROV符合数据说明和参照系统架构;(三) 利用拥有393个节点和946 GPUs的HPC集群对石油和天然气案例进行评估后获得的经验教训。实验表明,这些原则有助于将域的语义与ML模型结合,同时保持低空压( < 1%)、高比例性、高比例性以及某种程度的测量顺序。

1
下载
关闭预览

相关内容

【干货书】真实机器学习,264页pdf,Real-World Machine Learning
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
147+阅读 · 2019年10月27日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
37+阅读 · 2021年8月2日
A Survey of Deep Learning for Scientific Discovery
Arxiv
29+阅读 · 2020年3月26日
Arxiv
45+阅读 · 2019年12月20日
VIP会员
相关VIP内容
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
147+阅读 · 2019年10月27日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
相关资讯
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关论文
Arxiv
37+阅读 · 2021年8月2日
A Survey of Deep Learning for Scientific Discovery
Arxiv
29+阅读 · 2020年3月26日
Arxiv
45+阅读 · 2019年12月20日
Top
微信扫码咨询专知VIP会员