five

ChemPile|化学信息学数据集|人工智能数据集

收藏
arXiv2025-05-19 更新2025-05-21 收录
化学信息学
人工智能
下载链接:
https://huggingface.co/datasets/ChemPile
下载链接
链接失效反馈
资源简介:
ChemPile是一个超过750亿tokens的开放化学数据集,专为化学科学中通用模型的训练和评估而构建。数据集涵盖了从教育基础到专业知识的化学学习过程,包括多种模态和内容类型,如结构化的化学表示(SMILES、SELFIES、IUPAC名称、InChI、分子渲染)、科学和教育文本、可执行代码以及化学图像。ChemPile集成了基础知识、专业知识和高级推理,反映了人类化学家通过多样学习材料和经验发展专业知识的历程。数据集通过数百小时的专家整理和注释,捕捉了基础概念和特定领域的复杂性,并提供了标准化的训练、验证和测试分割,以实现强大的基准测试。ChemPile通过HuggingFace以一致的应用程序编程接口、许可和详细文档公开发布,旨在作为化学人工智能的催化剂,促进下一代化学基础模型的发展。
提供机构:
HIPOLE Jena & FSU Jena
创建时间:
2025-05-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
ChemPile数据集的构建过程体现了多模态化学数据整合的前沿理念。通过专家驱动的社区协作方式,研究团队耗时数百小时对化学教育内容(教材、讲义)、科研文献、结构化数据(SMILES、SELFIES等分子表示)、可执行代码及化学图像等多元内容进行系统化采集与标注。采用模块化构建策略,将数据划分为ChemPile-Education等六个功能性子集,每个子集通过特定流程处理:如科研文献采用BERT多标签分类器过滤,分子数据通过RDKit工具生成多表征形式,代码数据基于关键词正则表达式筛选。所有数据经过专家验证、分子骨架拆分和标准化分割,确保科学准确性与机器学习适用性。
使用方法
该数据集通过HuggingFace平台提供标准化接口,支持灵活的应用范式。研究者可采用模块化方式调用特定子集(如ChemPile-Caption用于图文跨模态学习),或通过预设比例混合不同子集进行全谱系训练。对于分子属性预测等任务,建议使用ChemPile-(m)LIFT子集的模板引擎生成多样化问答对;若需增强模型推理能力,则可聚焦ChemPile-Reasoning的合成推理轨迹。数据分割遵循防止分子泄漏原则,训练/验证/测试集按0.9:0.1:0.1比例基于Murcko骨架划分,确保评估可靠性。配套的详细文档(chempile.lamalab.org)提供了从基础加载到高级混合的完整代码示例。
背景与挑战
背景概述
ChemPile是由HIPOLE Jena、FSU Jena等机构的研究团队于2025年推出的一个面向化学科学的大规模、多模态开放数据集。该数据集包含超过750亿个经过专家精心筛选的化学数据标记,覆盖从教育基础到专业知识的完整学习路径。ChemPile的创建旨在解决化学领域缺乏多样化、高质量训练数据的问题,为化学基础模型的开发提供全面支持。数据集整合了结构化化学表示(如SMILES、SELFIES、IUPAC名称等)、科学文本、可执行代码和化学图像等多种模态,通过数百小时的专家人工标注,确保了数据的科学准确性和领域特异性。
当前挑战
ChemPile面临的挑战主要包括两方面:领域问题挑战和构建过程挑战。在领域问题方面,化学信息的复杂性和多样性使得模型需要处理多种分子表示形式(如SMILES、IUPAC等)之间的转换与一致性,同时需要理解跨模态的化学知识关联。构建过程中的挑战包括:大规模化学数据的质量控制与标准化处理,确保不同来源和格式的数据能够无缝整合;专家标注工作的高成本与时间投入;以及防止数据泄露的合理分割策略设计。此外,化学领域的专业术语和概念体系也为数据集的构建带来了额外的复杂性。
常用场景
经典使用场景
ChemPile数据集作为化学领域首个大规模、多模态的开放数据集,其经典使用场景主要体现在训练和评估化学基础模型(Foundation Models)。通过整合教育材料(教材、讲义)、科研论文、结构化化学数据(SMILES、SELFIES等)、化学图像与描述文本、可执行代码及推理轨迹等七类子集,该数据集能够模拟人类化学家的学习路径,从基础知识到专业推理的全方位训练。尤其在分子性质预测、光谱解析、跨模态化学知识关联等任务中,ChemPile通过其75B token的规模和多模态特性,为模型提供了类似人类专家的渐进式学习环境。
解决学术问题
ChemPile解决了化学AI领域长期存在的数据碎片化与模态单一问题。传统化学数据集如MoleculeNet或PubChem仅聚焦单一模态(如分子结构字符串),缺乏对化学推理过程、多模态关联及领域知识的系统覆盖。该数据集通过专家人工标注的1636个语言模板,统一了分子表征(IUPAC/SMILES/图像)与性质描述的映射关系,并采用骨架分割(scaffold splitting)确保数据划分的化学合理性。其嵌入分析表明,IUPAC名称嵌入与分子相似性的相关性(r=0.722)显著高于SMILES嵌入(r=0.521),为分子表征学习提供了新见解。
实际应用
在实际应用中,ChemPile支撑了从药物发现到材料设计的全链条创新。例如:1)制药企业利用其多模态数据训练分子生成模型,加速候选药物筛选;2)能源实验室通过材料科学子集优化电池材料逆向设计;3)教育科技公司基于ChemPile-Education开发化学虚拟助教系统。特别在安全领域,整合的MSDS(材料安全数据表)数据使模型能同步预测分子性质与危险性,推动绿色化学发展。数据集提供的标准化HuggingFace接口进一步降低了工业界应用门槛。
数据集最近研究
最新研究方向
ChemPile数据集作为化学领域首个大规模、多模态、高质量的开源数据集,正推动化学基础模型的范式变革。其创新性体现在三个方面:一是构建了从教育基础到专业研究的全周期学习路径,通过整合教材、论文、代码和分子图像等多模态数据,模拟人类化学家的认知发展过程;二是突破了传统化学数据集单模态(如SMILES字符串)的局限,首次实现IUPAC命名、分子图像与计算代码的联合表征,为多模态化学推理奠定基础;三是采用专家引导的社区协作模式,经过数百小时人工校验,确保数据覆盖材料科学、药物发现等关键领域。该数据集已支撑多项前沿研究,包括基于语言模型的分子性质预测、晶体结构生成和实验自动化设计,在加速能源材料开发、气候变化应对等重大社会议题中展现出战略价值。
相关研究论文
  • 1
    ChemPile: A 250GB Diverse and Curated Dataset for Chemical Foundation ModelsHIPOLE Jena & FSU Jena · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

A00_13081a.jpg

Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7

DataONE 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录