five

Anonymous-07/SafeChem

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Anonymous-07/SafeChem
下载链接
链接失效反馈
官方服务:
资源简介:
SafeChem是一个基于法规的基准数据集,包含32,614种化学物质,用于多标签GHS(全球统一制度)危害预测和LLM安全可靠性评估。与之前通过查询药物数据库构建的分子基准不同,SafeChem源自一个经过筛选的有害物质注册表,确保覆盖现实世界工业和关键安全化学品,包括溶剂、反应性气体、农用化学品和重金属化合物,这些在药物为中心的基准中代表性不足。每种物质都标注有分子结构表示(规范SMILES、InChI、InChI键)、八个物理化学描述符、自由文本物理描述以及30个二元GHS危害分类标签,涵盖毒理学、物理和环境危害类别,这些标签源自欧洲法规来源(CLP法规和ECHA C&L库存,由PubChem汇总)。数据集支持两个基准任务:1)多标签危害预测:从分子结构对17个保留的危害类别进行支架分割评估;2)LLM安全幻觉基准:在500种高危害物质子集上评估LLM的遗漏幻觉率、委托幻觉和静默弃权行为。

SafeChem is a regulatory-grounded benchmark dataset of 32,614 chemical substances for multi-label GHS (Globally Harmonized System) hazard prediction and LLM safety reliability evaluation. Unlike prior molecular benchmarks constructed by querying pharmaceutical databases, SafeChem is seeded from a curated hazardous materials registry, ensuring coverage of real-world industrial and safety-critical chemicals including solvents, reactive gases, agrochemicals, and heavy metal compounds underrepresented in drug-focused benchmarks. Each substance is annotated with molecular structure representations (canonical SMILES, InChI, InChI key), eight physicochemical descriptors, free-text physical descriptions, and 30 binary GHS hazard classification labels spanning toxicological, physical, and environmental hazard categories derived from European regulatory sources (CLP Regulation and ECHA C&L Inventory as aggregated by PubChem). The dataset supports two benchmark tasks: 1) Multi-label hazard prediction: Scaffold-split evaluation of GHS hazard classification from molecular structure across 17 retained hazard classes with sufficient test-set support; 2) LLM safety hallucination benchmark: Evaluation of omission hallucination rate, commission hallucination, and silent abstention behavior across LLMs on a curated 500-substance high-hazard subset.
提供机构:
Anonymous-07
搜集汇总
数据集介绍
main_image_url
构建方式
SafeChem数据集的构建始于一个经过严格筛选的危险物质注册中心——有害物质管理信息系统(HMMIS),从中提取化学物质的CAS号作为种子库。随后,通过PubChem的标识符交换服务将CAS号解析为PubChem CID,并仅保留具有有效规范SMILES表示及至少一条GHS危害分类记录的物质。进一步地,借助PubChem的计算属性端点和RDKit工具计算并交叉验证了八项物理化学描述符,最终依据PubChem CID进行去重,并剔除无任何阳性GHS标签的物质,形成了包含32,211种独特化学物质的最终语料库。
使用方法
数据集预设了两项基准任务以供使用。任务一为多标签危害预测,采用Bemis-Murcko支架拆分法将数据划分为70%训练集、15%验证集和15%测试集,用于评估模型基于分子结构对20个保留危害类别的分类性能。任务二为大型语言模型安全性幻觉基准,聚焦于一个精心挑选的500种高危物质子集,用于评估模型在回答化学危害问题时的遗漏幻觉率、捏造幻觉率及沉默回避行为。研究者可直接加载提供的CSV文件,按列分组提取分子标识符、描述符或标签信息,并依据预设的数据划分文件进行模型训练与评估。
背景与挑战
背景概述
SafeChem是一个基于监管法规构建的化学物质危害预测基准数据集,由匿名研究团队于近期创建,旨在弥补现有分子机器学习基准(如MoleculeNet、Tox21)过度聚焦于药物类分子的不足。该数据集以危险化学品管理信息系统(HMMIS)为种子来源,涵盖32,211种真实工业与安全关键物质,包括溶剂、反应性气体、农用化学品及重金属化合物等,并依据欧洲化学品管理局(ECHA)的CLP法规及PubChem聚合的GHS分类标签,为每种物质标注了30项二元危害标签。SafeChem支持多标签危害预测与大语言模型安全幻觉评估两项任务,其独特的监管化数据来源和化学空间覆盖,为化学信息学与AI安全性研究提供了重要基准。
当前挑战
SafeChem面临的核心挑战包括:其一,现有分子基准的药物偏向性导致对工业化学品(如溶剂、反应性气体)的预测能力不足,而SafeChem通过监管来源解决了这一领域问题;其二,数据集构建中需应对标签噪声——部分GHS标签来自行业自我申报,因提交者不一致可能引入误差;其三,化学空间覆盖局限,仅含单一化合物,未涉及混合物毒理学;其四,监管标签具有时间快照特性,无法反映后续法规更新。此外,在构建过程中,通过Bemis-Murcko骨架拆分防止数据泄漏,并结合迭代分层保持标签分布,但部分稀有危害类别(如爆炸物)在测试集中样本稀疏,增加了多标签分类的难度。
常用场景
经典使用场景
在化学信息学与分子机器学习领域,SafeChem数据集被广泛用于多标签化学危害预测任务,尤其是在全球化学品统一分类和标签制度(GHS)的框架下。研究人员利用该数据集训练和评估基于分子结构(如SMILES、InChI)的图神经网络、Transformer或分子指纹模型,以同时预测多达30类二元毒性、物理和环境危害标签。经典使用方式包括采用Bemis-Murcko骨架分离策略进行训练集与测试集的划分,以确保模型泛化能力并避免结构泄漏。这一基准任务为工业化学品的风险评估与自动化分类提供了标准化的评测平台。
解决学术问题
SafeChem有效弥补了现有分子机器学习基准(如MoleculeNet、Tox21)严重偏向药物类分子而忽略工业化学品的问题。它解决了从监管有害物质注册表出发构建数据集的难题,系统覆盖了溶剂、反应性气体、农用化学品和重金属化合物等工业关键但表征不足的物质类别。学术上,该数据集使研究者能够探索模型在真实世界安全关键化学空间中的预测偏差、标签稀疏性与类别不平衡问题,并推动了对危害标签的缺失噪声、自报告不一致性等数据质量问题的深入分析。其意义在于建立了一个更贴近实际监管需求且更具挑战性的基准,促进了化学安全预测模型的鲁棒性与可信性研究。
实际应用
SafeChem的现实应用广泛嵌入化学工业的安全管理与合规流程中。在化学品风险评估中,该数据集可用于开发自动化GHS危害分类工具,辅助企业或监管机构在缺乏实验数据时快速判断新物质的毒性、易燃性、爆炸性等关键安全属性。在供应链安全领域,模型可集成至物流和仓储系统,用于识别危险化学品的运输与储存风险。此外,该数据集还支持化学品数据库的智能审核与标签校验,提升安全数据表(SDS)的自动化生成与一致性检查效率。这些应用有助于降低人为疏漏风险,加速合规决策,并推动数字化学安全生态的构建。
数据集最近研究
最新研究方向
SafeChem数据集的问世标志着化学安全预测领域从以药物分子为中心的范式向工业级危险品管控的重大转型。该数据集突破性地以危险物质管理信息系统为种子库,系统性地纳入了溶剂、反应性气体、农用化学品及重金属化合物等传统化学信息学基准中稀缺的工业安全关键分子,填补了真实世界化学品风险评估的数据鸿沟。其核心创新在于构建了双任务评估框架:一方面,基于骨架分割的多标签危险预测任务可有效评估分子结构到30项全球化学品统一分类与标签制度(GHS)危害标签的映射能力;另一方面,LLM安全幻觉基准测试通过精心筛选的500种高危害物质子集,开创性地量化了大语言模型在化学安全问答中的遗漏幻觉率、编造幻觉率及沉默弃答行为,揭示了前沿语言模型在风险敏感场景下的可靠性边界。作为第一个严格依据欧盟CLP法规及ECHA监管数据构建的化学品安全基准,SafeChem不仅为多标签分类提供了更具挑战性的化学空间分布,更成为评估和提升AI系统在工业安全、环境监测等高风险领域应用可信度的关键验证平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作