chemicals
收藏Hugging Face2025-08-29 更新2025-08-30 收录
下载链接:
https://huggingface.co/datasets/jablonkagroup/chemicals
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含化学分子信息的 数据集,具体包括样本标识(sample)、InChI编码、SELFIES编码、原始SMILES编码和来源划分(source_split)等字段。数据集目前只有一个训练集(train split),包含约4558282个分子例子,数据集大小为2.3GB。
创建时间:
2025-08-28
原始信息汇总
数据集概述
基本信息
- 数据集名称: chemicals
- 存储位置: Hugging Face数据集中心(jablonkagroup组织)
- 下载大小: 682,548,280字节
- 数据集大小: 2,319,665,384字节
数据内容
- 总样本数: 4,558,282条
- 数据格式: 结构化字符串数据
- 数据分割: 仅包含训练集(train)
特征字段
- sample: 样本标识(字符串类型)
- InChI: 国际化合物标识(字符串类型)
- SELFIES: 自引用嵌入式字符串(字符串类型)
- SMILES_ORIGINAL: 简化分子线性输入规范(字符串类型)
- source_split: 数据来源分割信息(字符串类型)
技术配置
- 默认配置名称: default
- 数据文件路径: data/train-*
- 数据格式: 分片文件格式
搜集汇总
数据集介绍

构建方式
在化学信息学领域,chemicals数据集通过整合多个权威化学数据库中的分子结构信息构建而成。其构建过程涉及从原始文献和实验数据中提取标准化分子表示,并采用自动化流程验证化学结构的准确性与一致性,确保数据的高质量和可靠性。
使用方法
研究人员可通过加载数据集的分割配置直接访问训练集,利用分子字符串字段进行序列化处理或特征转换。该数据适用于分子生成模型训练、化学结构翻译任务及跨表示学习研究,需注意根据source_split字段划分实验场景以保证评估的严谨性。
背景与挑战
背景概述
化学信息学领域长期致力于分子结构的数字化表征,chemicals数据集应运而生,由专业研究机构于近年构建,旨在为机器学习模型提供大规模、标准化的分子表示数据。该数据集聚焦于SMILES、SELFIES和InChI三种主流分子描述符的关联与转换,为核心研究问题——分子性质预测与生成模型的训练奠定数据基础,对计算化学与药物发现领域产生深远影响。
当前挑战
分子表示学习面临的核心挑战在于不同描述符间的语义一致性维护及结构有效性保障,SMILES字符串的语法歧义与SELFIES的刚性语法约束需协同处理。数据构建过程中,海量化合物的标准化处理与异构体去重构成主要技术瓶颈,源数据异构性要求复杂的清洗 pipeline 与跨平台验证机制,以确保化学逻辑的精确性与数据分布的合理性。
常用场景
经典使用场景
在计算化学与药物发现领域,chemicals数据集通过提供海量化合物的标准结构表示形式,为分子生成与性质预测模型奠定了数据基础。研究者通常利用该数据集训练深度学习模型,探索分子结构的潜在空间分布,进而实现自动化分子设计。其SMILES与SELFIES格式的并行标注,显著提升了序列化分子表示的鲁棒性与生成效率,成为化学信息学中模型验证的基准资源之一。
解决学术问题
该数据集有效解决了化学分子表示学习中的标准化与一致性问题,为研究社区提供了大规模、多表征的化学结构数据。其通过统一标注的InChI、SMILES和SELFIES格式,支持分子生成、逆合成分析、物化性质预测等关键研究方向,显著推进了人工智能在化学领域的可解释性与泛化能力研究,缩短了理论计算与实验验证之间的差距。
实际应用
在实际应用中,该数据集被广泛用于制药企业的高通量虚拟筛选流程,加速候选药物的早期发现与优化。化学工业中亦借助其训练模型预测分子毒性、溶解性或反应活性,减少实验试错成本。此外,在教育与科研平台中,该数据集支持化学信息学课程的案例教学与算法开发,推动自动化实验室与AI驱动化学研究的基础设施建设。
数据集最近研究
最新研究方向
化学信息学领域正经历由传统分子表示方法向深度学习的范式转移,Chemicals数据集凭借其海量标准化分子结构数据,为分子性质预测与生成模型研究提供了关键支撑。当前研究聚焦于基于Transformer的SMILES与SELFIES双向序列生成,结合图神经网络挖掘分子拓扑特征,推动药物发现与材料设计的智能化进程。该数据集通过统一标注的分子表示格式,显著缓解了跨研究平台的数据异构性问题,为AI驱动的自动化实验室(Self-Driving Lab)提供了底层数据架构,加速了高熵合金催化剂、多肽药物等前沿材料的逆向设计突破。
以上内容由遇见数据集搜集并总结生成



