Optical Chemical Structure Recognition (OCSR) plays a pivotal role in modern chemical informatics, enabling the automated conversion of chemical structure images from scientific literature, patents, and educational materials into machine-readable molecular representations. This capability is essential for large-scale chemical data mining, drug discovery pipelines, and Large Language Model (LLM) applications in related domains. However, existing OCSR systems face significant challenges in accurately recognizing stereochemical information due to the subtle visual cues that distinguish stereoisomers, such as wedge and dash bonds, ring conformations, and spatial arrangements. To address these challenges, we propose MolSight, a comprehensive learning framework for OCSR that employs a three-stage training paradigm. In the first stage, we conduct pre-training on large-scale but noisy datasets to endow the model with fundamental perception capabilities for chemical structure images. In the second stage, we perform multi-granularity fine-tuning using datasets with richer supervisory signals, systematically exploring how auxiliary tasks-specifically chemical bond classification and atom localization-contribute to molecular formula recognition. Finally, we employ reinforcement learning for post-training optimization and introduce a novel stereochemical structure dataset. Remarkably, we find that even with MolSight's relatively compact parameter size, the Group Relative Policy Optimization (GRPO) algorithm can further enhance the model's performance on stereomolecular. Through extensive experiments across diverse datasets, our results demonstrate that MolSight achieves state-of-the-art performance in (stereo)chemical optical structure recognition.


翻译:化学结构光学识别(OCSR)在现代化学信息学中发挥着关键作用,能够将科学文献、专利和教材中的化学结构图像自动转换为机器可读的分子表示。这一能力对于大规模化学数据挖掘、药物发现流程以及相关领域的大语言模型(LLM)应用至关重要。然而,现有OCSR系统在准确识别立体化学信息方面面临重大挑战,这源于区分立体异构体的细微视觉线索,如楔形键与虚线键、环构象及空间排列。为应对这些挑战,我们提出MolSight——一个采用三阶段训练范式的综合性OCSR学习框架。第一阶段,我们在大规模但含噪声的数据集上进行预训练,使模型获得化学结构图像的基础感知能力。第二阶段,我们利用具有更丰富监督信号的数据集进行多粒度微调,系统探究辅助任务(具体为化学键分类与原子定位)如何促进分子式识别。最后,我们采用强化学习进行后训练优化,并引入一个新颖的立体化学结构数据集。值得注意的是,即使MolSight的参数规模相对紧凑,组相对策略优化(GRPO)算法仍能进一步提升模型在立体分子识别上的性能。通过跨多个数据集的广泛实验,我们的结果表明MolSight在(立体)化学光学结构识别中达到了最先进的性能水平。

0
下载
关闭预览

相关内容

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员