The integration of biomolecular modeling with natural language (BL) has emerged as a promising interdisciplinary area at the intersection of artificial intelligence, chemistry and biology. This approach leverages the rich, multifaceted descriptions of biomolecules contained within textual data sources to enhance our fundamental understanding and enable downstream computational tasks such as biomolecule property prediction. The fusion of the nuanced narratives expressed through natural language with the structural and functional specifics of biomolecules described via various molecular modeling techniques opens new avenues for comprehensively representing and analyzing biomolecules. By incorporating the contextual language data that surrounds biomolecules into their modeling, BL aims to capture a holistic view encompassing both the symbolic qualities conveyed through language as well as quantitative structural characteristics. In this review, we provide an extensive analysis of recent advancements achieved through cross modeling of biomolecules and natural language. (1) We begin by outlining the technical representations of biomolecules employed, including sequences, 2D graphs, and 3D structures. (2) We then examine in depth the rationale and key objectives underlying effective multi-modal integration of language and molecular data sources. (3) We subsequently survey the practical applications enabled to date in this developing research area. (4) We also compile and summarize the available resources and datasets to facilitate future work. (5) Looking ahead, we identify several promising research directions worthy of further exploration and investment to continue advancing the field. The related resources and contents are updating in https://github.com/QizhiPei/Awesome-Biomolecule-Language-Cross-Modeling.


翻译:生物分子建模与自然语言(BL)的融合已成为人工智能、化学和生物学交叉领域中的一个新兴前沿方向。该方法利用文本数据源中蕴含的丰富多维度生物分子描述,深化基础认知,并赋能下游计算任务(如生物分子性质预测)。通过将自然语言表达的细微叙述与多种分子建模技术描述的生物分子结构及功能特征相结合,为全面表征与分析生物分子开辟了新途径。BL旨在通过将围绕生物分子的语境语言数据纳入建模过程,捕捉涵盖语言传递的符号属性与定量结构特征的整体视角。本综述系统梳理了近期通过生物分子与自然语言交叉建模取得的重要进展:(1)首先概述生物分子采用的技术表示方法,包括序列、二维图与三维结构;(2)深入探讨语言与分子数据源实现有效多模态整合的理论依据与核心目标;(3)系统评述该发展中的研究领域目前已实现的实际应用;(4)汇总并梳理现有资源与数据集以促进后续研究;(5)展望未来,提出多个值得进一步探索与投入的前沿研究方向。相关资源与内容持续更新于 https://github.com/QizhiPei/Awesome-Biomolecule-Language-Cross-Modeling。

0
下载
关闭预览

相关内容

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员