chembl-endpoint-pair-clean-labels

Hugging Face2026-05-18 更新2026-05-19 收录

下载链接：

https://huggingface.co/datasets/jiosephlee/chembl-endpoint-pair-clean-labels

下载链接

链接失效反馈

官方服务：

资源简介：

Clean ChEMBL Endpoint Pair Prediction 数据集是一个用于分子对端点预测任务的专用数据集，基于 ChEMBL 36 数据库构建。它通过给定的分子对（Molecule A 和 Molecule B）预测特定生物测定或靶点端点的活性值。数据集中，问题部分为格式化提示，答案部分来源于清洗和聚合的标签：连续型端点使用 pChEMBL 值的中位数，二元型端点使用严格白名单中的 0/1 标签。构建过程中剔除了二元端点中标签冲突的分子组，并只保留清洗后至少包含两个分子的端点。端点键在测定层面和靶点层面由不同元组定义。数据集通过分层采样，从清洗后的端点池中为每个端点抽取一个定向分子对，确保在不同端点范围、标签类型和二元语义上的比例均衡。数据规模方面，原始清洗的端点源数据行超过 1000 万，二元白名单行超过 500 万。清洗后形成了包含 353,565 个测定端点和 33,208 个靶点端点的池。最终采样得到 100,000 个分子对，其中测定端点对 91,413 个，靶点端点对 8,587 个。每个保留端点的平均分子数因组别而异，例如测定端点总体平均为 27.33 个分子，靶点端点总体平均为 253.20 个分子。数据集已预先划分为训练集（70,000 行）、验证集（10,000 行）和测试集（20,000 行），划分依据 metadata.label_type 进行分层，各分集均包含连续型和二元型标签样本。数据字段包括：`question`（渲染后的提示）、`answer`（最终答案字符串，格式为 `Answer: <pchembl>` 或 `Answer: <0/1>`）以及 `metadata`（包含源标识符、端点元数据、清洗后的标签和加权 Tanimoto 相似度等信息的字典）。该数据集适用于监督学习任务，如分子性质预测、定量构效关系（QSAR）建模以及基于分子对的活性比较或外推。

The Clean ChEMBL Endpoint Pair Prediction dataset is a specialized dataset for molecular pair endpoint prediction tasks, constructed based on the ChEMBL 36 database. It predicts the activity value of a specific bioassay or target endpoint using a given molecular pair (Molecule A and Molecule B). In this dataset, the question section consists of formatted prompts, while the answer section is derived from cleaned and aggregated labels: continuous endpoints use the median of pChEMBL values, and binary endpoints use 0/1 labels from a strict whitelist. During construction, molecular groups with conflicting labels in binary endpoints were removed, and only endpoints with at least two molecules after cleaning were retained. Endpoint keys are defined by different tuples at the assay level and target level respectively. The dataset uses stratified sampling to extract one directed molecular pair for each endpoint from the cleaned endpoint pool, ensuring proportional balance across different endpoint ranges, label types, and binary semantics. In terms of data scale, the original cleaned endpoint source data has over 10 million rows, and the binary whitelist has over 5 million rows. After cleaning, a pool of 353,565 assay endpoints and 33,208 target endpoints was formed. A total of 100,000 molecular pairs were finally sampled, including 91,413 assay endpoint pairs and 8,587 target endpoint pairs. The average number of molecules per retained endpoint varies by group: for example, the overall average for assay endpoints is 27.33 molecules, and the overall average for target endpoints is 253.20 molecules. The dataset has been pre-split into a training set (70,000 rows), validation set (10,000 rows), and test set (20,000 rows), with stratified splitting based on metadata.label_type. Each subset contains samples of both continuous and binary labels. The data fields include: `question` (rendered prompt), `answer` (final answer string in the format `Answer: <pchembl>` or `Answer: <0/1>`), and `metadata` (a dictionary containing source identifiers, endpoint metadata, cleaned labels, weighted Tanimoto similarity, and other relevant information). This dataset is suitable for supervised learning tasks such as molecular property prediction, quantitative structure-activity relationship (QSAR) modeling, and activity comparison or extrapolation based on molecular pairs.

创建时间：

2026-05-17

原始信息汇总

数据集概述

数据集名称: Clean ChEMBL Endpoint Pair Prediction Dataset
来源: ChEMBL 36
任务: 端点对预测（Endpoint Pair Prediction），生成问答形式的样本，答案来自聚合后的干净标签。

数据构建流程

标签处理:
- 连续端点：使用非空 pchembl_value 行，按分子-端点组合取中位数聚合。
- 二元标签：仅使用精确白名单文本标签，排除包含 pChEMBL 值的行；若有冲突标签则丢弃该分子-端点组。
端点筛选: 仅在干净标签聚合后至少保留两个分子的端点。
端点键定义:
- 分析范围：(assay_id, standard_type, label_type, binary_semantics)
- 目标范围：(tid, standard_type, label_type, binary_semantics)
采样: 每个端点抽取一个定向分子对，按端点范围、标签类型和二元语义比例分配。

数据池统计

干净端点来源行数：10,154,459
二元白名单行数：5,257,668
丢弃的二元冲突组数：48,597
干净端点池：353,565 个分析端点 + 33,208 个目标端点
最终采样对：100,000 对（分析端点 91,413 对，目标端点 8,587 对）

每个保留端点的平均干净分子数：

端点组	平均分子数
分析总体	27.33
目标总体	253.20
分析连续 pChEMBL	20.17
目标连续 pChEMBL	234.50
分析二元活性	47.32
目标二元活性	289.62

数据划分（按标签类型分层，70/10/20）

划分	行数	连续	二元
训练集	70,000	44,932	25,068
验证集	10,000	6,419	3,581
测试集	20,000	12,838	7,162

列说明

question: 生成的提示文本
answer: 最终答案字符串，格式为 Answer: <pChEMBL> 或 Answer: <0/1>
metadata: 包含源标识符、端点元数据、干净标签和加权 Tanimoto 相似度

基线模型与性能

验证集

连续指标

基线	MAE	RMSE	R2	Pearson	Spearman
copy_reference	0.7480	1.0709	0.4375	0.7186	0.7151
tanimoto_shrinkage	0.7177	0.9875	0.5217	0.7293	0.7235
pair_feature_mlp_2layer	0.7274	0.9648	0.5434	0.7408	0.7338

二元指标

基线	accuracy	balanced accuracy	macro-F1	AUROC
copy_reference	0.9109	0.9103	0.9100	0.9103
tanimoto_shrinkage	0.9106	0.9101	0.9097	0.9360
pair_feature_mlp_2layer	0.9115	0.9111	0.9106	0.9537

测试集

连续指标

基线	MAE	RMSE	R2	Pearson	Spearman
copy_reference	0.7601	1.0862	0.4152	0.7086	0.7078
tanimoto_shrinkage	0.7291	1.0029	0.5014	0.7177	0.7142
pair_feature_mlp_2layer	0.7272	0.9701	0.5335	0.7334	0.7321

二元指标

基线	accuracy	balanced accuracy	macro-F1	AUROC
copy_reference	0.9038	0.9018	0.9022	0.9018
tanimoto_shrinkage	0.9038	0.9019	0.9022	0.9262
pair_feature_mlp_2layer	0.9024	0.9005	0.9008	0.9387

数据文件（JSONL.GZ 格式）

训练集：train.jsonl.gz
验证集：validation.jsonl.gz
测试集：test.jsonl.gz

搜集汇总

数据集介绍

构建方式

该数据集源自ChEMBL 36版本，针对生物活性端点对预测任务精心构建。连续型端点采用非空的pchembl_value值，并以中位数聚合每个分子-端点对的标签；二值型端点则依赖精确的白名单文本标签，排除含有pChEMBL值的记录。对于二值型端点中标签冲突的分子-端点组，直接予以剔除。端点定义涵盖测定范围（assay_id, standard_type, label_type, binary_semantics）和靶标范围（tid, standard_type, label_type, binary_semantics）。最终，从每个端点中抽取一个有向的分子对，并依据端点范围、标签类型和二元语义进行比例分配，形成10万个样本对。

特点

该数据集的核心特点在于其严格的质量控制与平衡设计。经过清洗后，共保留353,565个测定端点和33,208个靶标端点，平均每个保留端点的分子数在测定范围为27.33个，靶标范围达253.20个，其中连续型pChEMBL端点的分子密度较高。数据划分采用按标签类型分层的70/10/20训练/验证/测试集，确保连续型与二值型样本在各子集中合理分布。每个样本包含问题提示、答案字符串以及涵盖来源标识、端点元数据、清洁标签和加权Tanimoto相似度的元信息，为模型训练提供了全面的上下文。

使用方法

数据集预分为train.jsonl.gz、validation.jsonl.gz和test.jsonl.gz三个文件，用户可通过HuggingFace datasets库加载使用。样本的question字段为渲染后的提示文本，answer字段则以“Answer: <pchEMBL>”或“Answer: <0/1>”格式直接提供最终答案。数据集附带了一套基线方法用于校准，包括直接复制标签、基于Tanimoto相似度收缩的预测以及利用参考标签、分子对相似度和RDKit描述符特征的二层MLP模型，便于研究人员快速评估和比较模型性能。

背景与挑战

背景概述

在药物发现与生物活性预测领域，从大规模、异构的公共数据库中提取高质量、标准化的分子-靶点活性数据是构建可靠预测模型的核心前提。ChEMBL作为全球最广泛使用的药物化学数据库之一，其数据虽丰富，却因来源多样、标注不一致及噪声干扰而面临严峻的整合挑战。为此，研究团队基于ChEMBL 36版本，于近期推出了chembl-endpoint-pair-clean-labels数据集，旨在解决端点对预测任务中的数据清洁问题。该数据集通过严格的聚合与去冲突流程，生成了约35万条检测端点及3.3万条靶点端点的干净标注记录，最终采样10万对分子-端点实例，为连续与二分类活性预测提供了标准化基准，对推动药物化学中的机器学习方法评估具有重要影响力。

当前挑战

该数据集面临的挑战主要体现在两个方面。其一，在领域问题上，药物活性预测长期受困于标签噪声与标注不一致，传统方法如直接拷贝参考标签仅能达到0.76的MAE，而简单的相似度收缩策略虽略有提升，却仍无法突破信息瓶颈，这表明从异构数据中提取一致、可泛化的活性模式是核心技术难题。其二，在构建过程中，数据清洗涉及海量冲突处理，约4.8万个二分类冲突组被剔除，且端点保留需满足至少两个分子样本的约束，这导致大量潜在有效数据的丢失；同时，如何平衡端点类型、标注类型及分子对的采样比例，以确保数据集代表性与任务适用性，也是一项复杂的优化挑战。

常用场景

经典使用场景

在药物研发与化学信息学领域，化合物活性的精确预测始终是核心挑战。该数据集专为分子对级别的生物活性预测任务而设计，其经典应用场景是基于大规模、高质量的ChEMBL数据构建分子对（molecule pair）与靶点-端点（endpoint）之间的关联模型。研究者利用数据集中提供的‘问题-答案’对（question/answer pairs），训练模型以预测给定分子在特定端点下的活性数值（pChEMBL）或二元活性标签（0/1）。这一范式特别适用于端到端的学习框架，常见的使用策略包括将分子对的特征进行拼接后输入回归或分类器，或借助预训练的分子表示进行迁移学习，从而在统一的评估协议下实现活性预测性能的横向比较。

实际应用

在实际药物发现流程中，该数据集的应用场景高度适配早期先导化合物优化的关键环节。它可以辅助计算化学团队快速筛选候选化合物库，通过对比已知活性分子与未知分子的端点响应，预测新化学实体在特定靶点上的可能效力。在虚拟筛选项目中，该数据集训练的模型能够对大型化合物库进行初步排序，极大减少湿实验验证的盲目性与成本。此外，其端点结构涵盖不同靶点、标准类型与二元语义，使其还能应用于多靶点活性谱预测与脱靶效应风险评估，助力发现兼具效能与选择性的候选分子。业界可利用该数据集作为公共基准，评估内部分子表示方法或活性预测模型的真实泛化能力，从而加速迭代与决策。

衍生相关工作

该数据集的发布催生了一系列围绕分子对活性预测与表示学习的经典工作。在基线方法层面，研究者贡献了从简单复制标签（copy_reference）到融合相似性与端点元数据的多层感知机（pair_feature_mlp_2layer）等对比框架，为后续模型提供了性能锚点。受其启发，学术社区涌现出多种基于图神经网络、Transformer及预训练语言模型的改进方法，这些工作或引入分子拓扑感知的注意力机制，或设计端到端的对比学习策略，显著提升了在连续和二元任务上的预测精度。部分衍生工作还将该数据集作为微调与评估平台，用于验证跨领域迁移学习的有效性，或是探究活性预测中的化学空间覆盖度与长尾分布问题。这些研究共同构筑了药物活性预测从数据驱动到模型驱动的重要桥梁。

以上内容由遇见数据集搜集并总结生成