M3-20M

Name: M3-20M
Creator: 同济大学计算机科学与技术系，上海智能信息处理重点实验室，复旦大学计算机科学学院
Published: 2024-12-08 11:43:07
License: 暂无描述

arXiv2024-12-08 更新2024-12-12 收录

下载链接：

https://github.com/bz99bz/M-3

下载链接

链接失效反馈

官方服务：

资源简介：

M3-20M是由同济大学和复旦大学联合创建的一个大规模多模态分子数据集，包含超过2000万种分子。该数据集整合了一维SMILES、二维分子图、三维分子结构、理化性质和文本描述，旨在支持AI驱动的药物设计和发现。数据集通过网络爬虫和GPT-3.5生成文本描述，提供了前所未有的数据规模和多样性。M3-20M的创建过程包括从PubChem、ZINC和QM9数据库中收集分子数据，并进行多模态处理。该数据集主要应用于药物设计、分子生成、分子性质预测等领域，旨在提升AI模型在药物发现中的性能。

M3-20M is a large-scale multimodal molecular dataset jointly developed by Tongji University and Fudan University, encompassing over 20 million unique molecules. This dataset integrates 1D SMILES strings, 2D molecular graphs, 3D molecular structures, physicochemical properties and text descriptions, with the objective of supporting AI-driven drug design and discovery. Compiled through web crawling and text descriptions generated by GPT-3.5, M3-20M offers unprecedented data scale and diversity. Its development pipeline includes collecting molecular data from public databases such as PubChem, ZINC and QM9, followed by multimodal data processing. This dataset is primarily applied in research domains including drug design, molecular generation and molecular property prediction, aiming to enhance the performance of AI models in drug discovery.

提供机构：

同济大学计算机科学与技术系，上海智能信息处理重点实验室，复旦大学计算机科学学院

创建时间：

2024-12-08

搜集汇总

数据集介绍

构建方式

M3-20M数据集通过整合多种分子表示形式构建，包括一维SMILES字符串、二维分子图、三维分子结构、理化性质以及通过网络爬虫和GPT-3.5生成的文本描述。数据主要来源于PubChem、ZINC和QM9数据库，并通过RDKit工具提取分子图和三维结构。此外，通过GPT-3.5生成的文本描述经过专家评分机制确保其科学准确性，最终形成了包含超过2000万分子的多模态数据集。

特点

M3-20M数据集的显著特点在于其大规模、多模态和全面性。首先，它是目前最大的开放访问多模态分子数据集，包含超过2000万分子，远超现有数据集的规模。其次，数据集涵盖了一维、二维、三维分子结构、理化性质和文本描述，提供了对分子的全方位视角。最后，数据集支持多种下游任务，包括分子生成、分子性质预测、药物优化和虚拟筛选等，极大地提升了模型的训练和调优效果。

使用方法

M3-20M数据集可用于多种下游任务的模型训练和调优，包括分子生成、分子性质预测、药物优化和虚拟筛选等。使用者可以通过提示工程、微调或从头训练的方式，利用该数据集提升大语言模型在药物设计和发现领域的性能。此外，数据集还提供了生成分子图像和爬取PubMed相关文献的工具，进一步丰富了分子的文本描述，增强了数据集的实用性。

背景与挑战

背景概述

M3-20M是由同济大学和复旦大学的研究团队于2024年推出的一个大规模多模态分子数据集，旨在支持人工智能驱动的药物设计和发现。该数据集包含了超过2000万种分子，涵盖了一维SMILES字符串、二维分子图、三维分子结构、理化性质以及通过网络爬取和GPT-3.5生成的文本描述。M3-20M的规模是现有最大数据集的71倍，提供了前所未有的数据量和多样性，能够显著提升药物设计和发现任务中的模型性能。该数据集的推出填补了现有分子数据集在多模态信息上的不足，为药物设计领域的研究提供了强大的数据支持。

当前挑战

M3-20M在构建过程中面临了多重挑战。首先，多模态数据的整合是一个复杂的过程，不同模态的数据（如SMILES、分子图、三维结构等）需要进行一致性处理，以确保数据的质量和完整性。其次，数据集的规模庞大，如何高效地存储、处理和检索这些数据也是一个技术难题。此外，文本描述的生成和质量控制也是一个挑战，尤其是通过GPT-3.5生成的描述需要经过严格的专家评分机制来确保其科学性和实用性。最后，如何有效地利用多模态数据进行模型训练和优化，以提升药物设计和发现的效率和准确性，也是该数据集面临的一个重要挑战。

常用场景

经典使用场景

M3-20M 数据集的经典应用场景主要集中在药物设计和发现领域。该数据集通过整合一维 SMILES 字符串、二维分子图、三维分子结构、理化性质以及文本描述，为大规模语言模型在分子生成和分子性质预测任务中的训练和微调提供了前所未有的数据规模和多样性。实验结果表明，M3-20M 能够显著提升模型在分子生成任务中的多样性和有效性，同时在分子性质预测任务中实现更高的准确性。

解决学术问题

M3-20M 数据集解决了现有分子数据集在规模和多模态信息上的不足。传统数据集通常仅包含单一模态信息，无法全面捕捉分子的特性，限制了模型的泛化能力和性能。M3-20M 通过提供超过 2000 万种分子的多模态数据，填补了这一空白，为药物设计和发现领域的研究提供了更强大的工具。其多模态数据的整合不仅提升了模型的性能，还为未来的药物发现研究开辟了新的方向。

衍生相关工作

M3-20M 数据集的发布催生了一系列相关研究工作，特别是在多模态分子数据处理和药物设计领域。例如，基于 M3-20M 的分子生成和性质预测模型在多个下游任务中表现出色，推动了多模态分子表示学习的发展。此外，M3-20M 还启发了对大规模语言模型在药物设计中的应用研究，促进了药物设计与人工智能的深度融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集