ether0-benchmark

Hugging Face2025-06-05 更新2025-06-06 收录

下载链接：

https://huggingface.co/datasets/futurehouse/ether0-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

ether0基准数据集是一个针对ether0推理语言模型的问答基准测试集（测试集）。它包含了以下任务：完成SMILES片段、设计符合分子公式和功能团约束的分子、预测反应结果、提出一步合成路径、编辑分子的溶解性、将IUPAC名称转换为SMILES、以及回答关于安全性、ADME特性、BBB渗透性、毒性、气味和pKa的多项选择题。

The ether0 benchmark dataset is a question answering benchmark test suite specifically developed for the ether0 reasoning language model. It encompasses the following tasks: completing SMILES fragments, designing molecules that conform to molecular formula and functional group constraints, predicting reaction outcomes, proposing one-step synthetic routes, modifying molecular solubility properties, converting IUPAC names to SMILES, and answering multiple-choice questions regarding safety, ADME properties, blood-brain barrier (BBB) permeability, toxicity, odor, and pKa.

创建时间：

2025-06-05

原始信息汇总

ether0-benchmark 数据集概述

数据集基本信息

名称: ether0-benchmark
类型: 问答/强化学习
语言: 英文 (en)
标签: smiles, chemistry, reasoning
许可证: CC BY 4.0
大小类别: n<1K
下载大小: 80,281 bytes
数据集大小: 156,383 bytes

数据集结构

特征:
- id (string)
- problem (string)
- solution (string)
- ideal (string)
- problem_type (string)
- unformatted (string)
拆分:
- test (325个样本)

数据集内容

任务类别:
- 问答
- 强化学习
任务描述:
- 完成SMILES片段
- 设计符合分子式和官能团约束的分子
- 预测反应结果
- 提出一步合成路径
- 编辑分子的溶解度
- 将IUPAC名称转换为SMILES
- 回答关于安全性、ADME性质、BBB渗透性、毒性、气味和pKa的多选题

数据集用途

用于评估ether0推理语言模型及其他前沿LLMs的性能。

版权信息

版权归2025 FutureHouse所有。

搜集汇总

数据集介绍

构建方式

在化学信息学领域，ether0-benchmark数据集通过整合多个权威化学数据库构建而成，涵盖USPTO/ORD的反应预测任务、PubChem的分子描述生成以及GHS分类预测等。数据集采用标准化流程从原始文献中提取问题与答案对，确保每个任务类别均衡分布约25个问题，并经过人工校验以保证化学逻辑的准确性。所有答案均以分子形式呈现，这一设计显著区别于传统文本答案基准。

使用方法

研究人员可通过HuggingFace平台直接加载数据集进行化学语言模型评估，使用标准问答格式处理id-problem-solution数据字段。评估时需调用专用奖励函数（详见GitHub仓库）对分子答案进行结构化验证，包括SMILES语法检查与化学语义匹配。该基准支持分子生成质量、多步推理能力等维度的量化分析，建议结合ether0论文描述的指标体系进行性能对比研究。

背景与挑战

背景概述

化学信息学领域长期致力于分子表示与智能推理系统的开发，ether0-benchmark由FutureHouse研究团队于2025年创建，旨在构建面向分子智能体的标准化评估体系。该数据集聚焦分子表示语言（SMILES）的多任务推理能力，涵盖反应预测、分子设计、性质分析等核心问题，其创新性在于所有答案均以分子形式呈现，为化学语言模型提供了兼具专业性与平衡性的评估基准，对推动AI驱动的化学研究具有重要意义。

当前挑战

该数据集需解决化学推理中分子表示统一性与任务多样性的双重挑战，包括SMILES片段补全的语法一致性、分子设计中的结构约束满足、以及多选问题中物化性质的准确关联。构建过程中面临原始数据异构性整合难题，需从USPTO专利库、PubChem化合物数据库等多源体系提取并标准化数据，同时确保125个任务的样本均衡性与评估指标可比性，其奖励函数设计需兼顾化学有效性与机器学习可解释性。

常用场景

经典使用场景

在计算化学与药物发现领域，ether0-benchmark作为专门评估分子推理能力的测试集，其经典应用场景集中于多任务化学问题求解。该数据集通过SMILES片段补全、反应产物预测、分子设计约束满足等多样化任务，系统检验语言模型对化学知识的理解与生成能力。每个任务约包含25个平衡问题，确保评估的全面性与可比性，为模型在化学推理方面的性能提供标准化度量。

解决学术问题

该数据集有效解决了化学信息学中分子表示学习与自动化推理的若干核心问题。通过统一以分子作为答案输出，它促进了跨任务的知识迁移与泛化能力评估，弥补了传统基准在化学专项任务上的不足。其构建遵循已报道数据的统计特性，使得80%的反应预测准确率可与USPTO-50k数据集的保留分割性能直接对标，为化学语言模型的可靠性验证提供了重要依据。

实际应用

在实际应用层面，ether0-benchmark支撑了药物研发与材料科学中的关键环节。模型通过完成分子溶解度编辑、合成路线提议、GHS分类预测等任务，可直接辅助化学家进行分子优化与风险评估。其多选择题模块涵盖ADME性质、血脑屏障通透性及毒性等药理学指标，为高通量虚拟筛选与化合物安全性预测提供了自动化评估工具。

数据集最近研究