five

M3-20M|药物设计数据集|分子数据数据集

收藏
arXiv2024-12-08 更新2024-12-12 收录
药物设计
分子数据
下载链接:
https://github.com/bz99bz/M-3
下载链接
链接失效反馈
资源简介:
M3-20M是由同济大学和复旦大学联合创建的一个大规模多模态分子数据集,包含超过2000万种分子。该数据集整合了一维SMILES、二维分子图、三维分子结构、理化性质和文本描述,旨在支持AI驱动的药物设计和发现。数据集通过网络爬虫和GPT-3.5生成文本描述,提供了前所未有的数据规模和多样性。M3-20M的创建过程包括从PubChem、ZINC和QM9数据库中收集分子数据,并进行多模态处理。该数据集主要应用于药物设计、分子生成、分子性质预测等领域,旨在提升AI模型在药物发现中的性能。
提供机构:
同济大学计算机科学与技术系,上海智能信息处理重点实验室,复旦大学计算机科学学院
创建时间:
2024-12-08
AI搜集汇总
数据集介绍
main_image_url
构建方式
M3-20M数据集通过整合多种分子表示形式构建,包括一维SMILES字符串、二维分子图、三维分子结构、理化性质以及通过网络爬虫和GPT-3.5生成的文本描述。数据主要来源于PubChem、ZINC和QM9数据库,并通过RDKit工具提取分子图和三维结构。此外,通过GPT-3.5生成的文本描述经过专家评分机制确保其科学准确性,最终形成了包含超过2000万分子的多模态数据集。
特点
M3-20M数据集的显著特点在于其大规模、多模态和全面性。首先,它是目前最大的开放访问多模态分子数据集,包含超过2000万分子,远超现有数据集的规模。其次,数据集涵盖了一维、二维、三维分子结构、理化性质和文本描述,提供了对分子的全方位视角。最后,数据集支持多种下游任务,包括分子生成、分子性质预测、药物优化和虚拟筛选等,极大地提升了模型的训练和调优效果。
使用方法
M3-20M数据集可用于多种下游任务的模型训练和调优,包括分子生成、分子性质预测、药物优化和虚拟筛选等。使用者可以通过提示工程、微调或从头训练的方式,利用该数据集提升大语言模型在药物设计和发现领域的性能。此外,数据集还提供了生成分子图像和爬取PubMed相关文献的工具,进一步丰富了分子的文本描述,增强了数据集的实用性。
背景与挑战
背景概述
M3-20M是由同济大学和复旦大学的研究团队于2024年推出的一个大规模多模态分子数据集,旨在支持人工智能驱动的药物设计和发现。该数据集包含了超过2000万种分子,涵盖了一维SMILES字符串、二维分子图、三维分子结构、理化性质以及通过网络爬取和GPT-3.5生成的文本描述。M3-20M的规模是现有最大数据集的71倍,提供了前所未有的数据量和多样性,能够显著提升药物设计和发现任务中的模型性能。该数据集的推出填补了现有分子数据集在多模态信息上的不足,为药物设计领域的研究提供了强大的数据支持。
当前挑战
M3-20M在构建过程中面临了多重挑战。首先,多模态数据的整合是一个复杂的过程,不同模态的数据(如SMILES、分子图、三维结构等)需要进行一致性处理,以确保数据的质量和完整性。其次,数据集的规模庞大,如何高效地存储、处理和检索这些数据也是一个技术难题。此外,文本描述的生成和质量控制也是一个挑战,尤其是通过GPT-3.5生成的描述需要经过严格的专家评分机制来确保其科学性和实用性。最后,如何有效地利用多模态数据进行模型训练和优化,以提升药物设计和发现的效率和准确性,也是该数据集面临的一个重要挑战。
常用场景
经典使用场景
M3-20M 数据集的经典应用场景主要集中在药物设计和发现领域。该数据集通过整合一维 SMILES 字符串、二维分子图、三维分子结构、理化性质以及文本描述,为大规模语言模型在分子生成和分子性质预测任务中的训练和微调提供了前所未有的数据规模和多样性。实验结果表明,M3-20M 能够显著提升模型在分子生成任务中的多样性和有效性,同时在分子性质预测任务中实现更高的准确性。
解决学术问题
M3-20M 数据集解决了现有分子数据集在规模和多模态信息上的不足。传统数据集通常仅包含单一模态信息,无法全面捕捉分子的特性,限制了模型的泛化能力和性能。M3-20M 通过提供超过 2000 万种分子的多模态数据,填补了这一空白,为药物设计和发现领域的研究提供了更强大的工具。其多模态数据的整合不仅提升了模型的性能,还为未来的药物发现研究开辟了新的方向。
衍生相关工作
M3-20M 数据集的发布催生了一系列相关研究工作,特别是在多模态分子数据处理和药物设计领域。例如,基于 M3-20M 的分子生成和性质预测模型在多个下游任务中表现出色,推动了多模态分子表示学习的发展。此外,M3-20M 还启发了对大规模语言模型在药物设计中的应用研究,促进了药物设计与人工智能的深度融合。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

ShapeNet

ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。

OpenDataLab 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录