ChEMBL_CellLine_Only

Hugging Face2026-01-22 更新2026-01-23 收录

下载链接：

https://huggingface.co/datasets/OTAR3088/ChEMBL_CellLine_Only

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从欧洲PMC（EPMC）提取的，这是一个提供生命科学研究文献全面访问的免费数据库。EPMC汇总了来自PubMed、arXiv等来源的内容，并提供了数百万篇科学文章的开放访问。此数据集是欧洲PMC、Open Targets和ChEMBL在EMBL-EBI合作项目的一部分。数据集标注了细胞系的提及，使其成为生物医学领域自然语言处理（NLP）任务的宝贵资源。支持的任务包括命名实体识别（NER）、关系提取、文本分类、情感分析、信息检索、实体链接、问答（QA）、主题建模和文本摘要。数据集仅包含开放获取的文章，排除了重复条目和撤回出版物的文章，并进行了文本清理和无关部分的过滤。

创建时间：

2026-01-22

原始信息汇总

ChEMBL CellLine NER 数据集概述

数据集基本信息

名称：ChEMBL CellLine NER Data (CheMBL-CL)
发布平台：Hugging Face Datasets
语言：英语
许可协议：MIT
数据规模：1K<n<10K
主要任务类别：标记分类
具体任务：命名实体识别
标签：cell-line, biomedical, ner

数据集来源与背景

数据来源：数据集从欧洲PubMed Central（Europe PMC, EPMC）提取，这是一个提供生命科学研究文献全面访问的免费数据库。
合作项目：该数据集是欧洲PMC、Open Targets和EMBL-EBI的ChEMBL之间项目合作的成果。
标注标准：Silver

数据集内容与结构

数据字段：
- PMCID：字符串类型，文章唯一标识符。
- Sentences：字符串类型，句子文本。
- entities：列表类型，包含实体标注信息，每个实体包含end（结束位置，int64）、label（标签，string）、start（开始位置，int64）和text（实体文本，string）字段。
数据划分：仅包含训练集。
- 训练集样本数：1319
- 训练集大小：306,755字节
下载大小：137,185字节
数据集总大小：306,755字节
标注内容：数据基于ChEMBL的测定描述进行提取，并对细胞系提及进行了标注。

数据收集与处理

收集方法：使用欧洲PMC API收集，检索标记为“开放获取”的文章，排除标记为“撤稿”的文章，并通过确保PMCID唯一性过滤重复条目。
参与方：EMBL-EBI的研究人员使用自动化工具查询和处理欧洲PMC存储库。
预处理/清洗步骤：
1. 仅检索开放获取文章。
2. 排除标记为“撤稿”的文章。
3. 基于PMCID列删除重复条目。
4. 从文章的每个部分提取段落文本，并在“Section Column”中引用相关部分。
5. 过滤多余空格、内联数学/LaTeX格式以及无关部分（如“Disclosure”、“Publishers note”等）。
6. 移除姓名标识符和个人数据。
已知问题：目前尚未识别出任何错误、噪声源或冗余。

预期用途

该数据集可用于（但不限于）以下生物医学领域的下游自然语言处理任务：

命名实体识别
关系抽取
文本分类
情感分析
信息检索
实体链接
问答系统
主题建模
文本摘要

数据集维护与分发

维护方：欧洲PMC和ChEMBL团队负责数据集的维护。
分发方式：数据集可免费使用和复制，但需要适当引用作者（信息待更新）。
更新计划：数据集会随着项目进展进行更新，由团队定期执行，并通过GitHub使用版本标签进行记录和沟通。
联系渠道：可通过GitHub或Hugging Face的社区讨论论坛联系。
扩展机制：鼓励通过GitHub进行贡献，通过拉取请求评估质量，接受的贡献将通过版本标签和发布说明告知用户。
使用追踪：GitHub存储库将追踪使用该数据集的出版物和系统。

其他说明

实验状态：目前尚未在该数据集上运行任何实验，后续将随进展更新。
创建目的：旨在为推进生物医学领域的NLP研究提供基础资源。

搜集汇总

数据集介绍

构建方式

在生物医学信息学领域，高质量标注数据对于推动自然语言处理技术至关重要。ChEMBL_CellLine_Only数据集由欧洲PMC、Open Targets及ChEMBL团队合作构建，其数据源自欧洲PMC开放获取的生命科学文献库。通过自动化流程，研究人员利用API检索文章，排除撤稿文献及重复条目，并经过细致的文本清洗，移除了无关章节、数学公式及个人标识信息，最终从文献段落中精准提取出细胞系提及的标注信息，形成一套银标准标注资源。

使用方法

研究人员可直接通过HuggingFace平台加载该数据集，应用于细胞系相关的命名实体识别模型训练与评估。数据集以标准格式组织，包含文本句子及实体标注，便于集成到现有自然语言处理流程中。用户可基于其进行关系提取、实体链接或问答系统开发，亦可通过GitHub参与数据集的扩展与改进，促进生物医学文本挖掘技术的持续发展。

背景与挑战

背景概述

在生物医学信息学领域，精准提取科学文献中的关键实体是推动知识发现与药物研发的基础。ChEMBL_CellLine_Only数据集由欧洲生物信息学研究所（EMBL-EBI）旗下的ChEMBL团队、Open Targets及Europe PMC于近年合作创建，旨在构建一个专注于细胞系命名实体识别的标注语料库。该数据集从Europe PMC开放获取文献中系统提取，聚焦于细胞系提及的标注，以支持下游自然语言处理任务，如关系抽取与实体链接，从而增强对癌症研究及实验模型中细胞系功能的理解，为生物医学文本挖掘提供了重要的数据资源。

当前挑战

该数据集致力于解决生物医学命名实体识别中细胞系提及的精准定位与分类挑战，由于细胞系名称常存在变体、缩写及上下文依赖，区分其与基因、疾病等实体的边界成为核心难点。在构建过程中，团队面临数据质量控制的挑战，包括从海量文献中过滤重复条目、排除撤稿文章，并需在预处理中移除无关章节及个人数据，同时保持标注一致性，这些步骤对自动化工具的可靠性及人工校验提出了较高要求。

常用场景

经典使用场景

在生物医学自然语言处理领域，细胞系命名实体识别是基础且关键的任务。ChEMBL_CellLine_Only数据集通过从欧洲PMC开放获取文献中提取并标注细胞系提及，为这一任务提供了高质量的标注资源。该数据集常用于训练和评估深度学习模型，如基于Transformer的架构，以精准识别生物医学文本中的细胞系名称，支持下游信息抽取与分析。

解决学术问题

该数据集有效解决了生物医学文本挖掘中细胞系实体识别标准不统一、标注数据稀缺的学术难题。通过提供大规模、结构化的标注语料，它促进了命名实体识别模型在生物医学领域的泛化能力提升，并支持关系抽取、实体链接等进阶研究，为理解细胞系在疾病机制与药物研发中的角色提供了数据基础。

实际应用

在实际应用中，该数据集可赋能药物发现与癌症研究流程。例如，在药物靶点识别中，系统能自动从海量文献中提取细胞系与药物、基因的关联信息，加速实验设计；在临床前研究中，它辅助研究人员追踪特定细胞系的研究趋势，优化资源分配，提升生物医学信息系统的检索效率与准确性。

数据集最近研究