lcampillos/ctebmsp

Name: lcampillos/ctebmsp
Creator: lcampillos
Published: 2022-07-23 22:48:56
License: 暂无描述

Hugging Face2022-07-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lcampillos/ctebmsp

下载链接

链接失效反馈

官方服务：

资源简介：

CT-EBM-SP（西班牙语循证医学临床试验）数据集是一个包含1200篇关于临床试验研究和公告的文本集合，其中500篇来自期刊摘要，700篇来自临床试验公告。数据集主要用于医学命名实体识别任务，语言为西班牙语，包含292,173个标记和46,699个实体，这些实体根据统一医学语言系统（UMLS）的语义组进行分类。数据集分为训练集、开发集和测试集。

CT-EBM-SP (Spanish Evidence-Based Medicine Clinical Trial) dataset is a text corpus consisting of 1200 documents related to clinical trial studies and announcements, with 500 sourced from journal abstracts and 700 from clinical trial announcements. The dataset is primarily intended for medical named entity recognition tasks, is in Spanish, and contains 292,173 tokens and 46,699 entities, which are classified according to the semantic groups of the Unified Medical Language System (UMLS). The dataset is divided into training, development, and test sets.

提供机构：

lcampillos

原始信息汇总

数据集概述

数据集名称

CT-EBM-SP (Clinical Trials for Evidence-based Medicine in Spanish)

数据集描述

数据集总结：包含1200篇关于临床试验研究的文本，分为500篇期刊摘要和700篇临床试验公告。
支持的任务：医学命名实体识别。
语言：西班牙语。

数据集结构

数据实例：总计292,173个令牌，46,699个实体，涵盖以下UMLS语义组：
- ANAT (解剖和身体部位)：6,728实体
- CHEM (化学和药理物质)：9,224实体
- DISO (病理状况)：13,067实体
- PROC (治疗和诊断程序，实验室分析)：17,680实体
数据分割：
- 训练集：175,203令牌，28,101实体
- 开发集：58,670令牌，9,629实体
- 测试集：58,300令牌，8,969实体

数据集创建

源数据：来自PubMed和SciELO的期刊摘要，以及欧洲临床试验注册和西班牙临床研究库的公告。
注释者：
- Leonardo Campillos-Llanos, 计算语言学家
- Adrián Capllonch-Carrión, 医学博士
- Ana Valverde-Mateos, 医学词典编纂者

使用数据的考虑

披露：此数据集正在开发中，不应在没有人类协助和监督的情况下用于医疗决策。
免责声明：数据集的目的是通用性的，可能存在偏见或其他不希望的扭曲。数据集的拥有者或创建者不对第三方使用此数据集产生的结果负责。

搜集汇总

数据集介绍

构建方式

在临床医学信息抽取领域，西班牙语资源的稀缺性促使研究者构建了CT-EBM-SP数据集。该数据集通过系统化采集与标注流程构建，源数据涵盖500篇来自PubMed与SciELO的期刊摘要，以及700份欧洲临床试验注册库与西班牙临床试验库的公告文本。标注工作由计算语言学家与医学专家协作完成，依据统一医学语言系统的语义组对实体进行精细标注，确保了数据的专业性与一致性。整个构建过程注重数据来源的多样性与标注标准的严谨性，为西班牙语医学自然语言处理提供了可靠的基础资源。

特点

CT-EBM-SP数据集在医学命名实体识别任务中展现出鲜明的专业特色。其核心特征在于全面覆盖了统一医学语言系统的四大语义组，包括解剖结构、化学物质、病理状况及医疗程序，实体标注总数达46,699个，构成了丰富的语义层次。数据集包含292,173个词汇单元，并细分为训练集、开发集与测试集，便于模型训练与评估。作为西班牙语单语资源，它专注于临床实验文本，填补了该语言在循证医学领域的语料空白，为跨语言医学信息处理研究提供了关键支撑。

使用方法

该数据集主要应用于西班牙语医学命名实体识别模型的开发与评估。使用者可依据标准划分的训练集、开发集与测试集进行模型训练、调优与性能测试，重点识别解剖、化学、疾病与程序四类实体。鉴于数据集仍处于发展阶段，且可能存在偏差，建议将其用于学术研究或辅助性工具开发，避免直接用于临床决策。使用前需仔细阅读免责声明，并遵循CC-BY-4.0许可协议，引用相关论文以尊重作者的知识贡献。

背景与挑战

背景概述

在生物医学信息学领域，西班牙语临床文本的标注资源相对匮乏，制约了循证医学的信息化发展。为应对这一挑战，研究团队于2021年发布了CT-EBM-SP数据集，由Campillos-Llanos等人主导构建，并得到西班牙皇家医学院等机构的支持。该数据集聚焦于临床实验文本的命名实体识别任务，旨在通过标注UMLS语义组实体，提升西班牙语医学文献的自动化处理能力，从而促进临床决策支持系统的研发与应用。

当前挑战

该数据集致力于解决西班牙语临床文本中命名实体识别的核心难题，其挑战在于医学术语的复杂性与多义性，以及西班牙语特有的语言结构对实体边界划分的影响。在构建过程中，团队面临标注一致性的维护、跨数据源格式的统一，以及专业医学知识依赖的标注成本等挑战。此外，数据来源的异构性，如期刊摘要与临床试验公告的文体差异，进一步增加了标注规范制定的难度。

常用场景

经典使用场景

在医学自然语言处理领域，西班牙语临床文本的实体识别任务长期面临资源匮乏的挑战。CT-EBM-SP数据集通过提供大量标注的临床试验摘要和公告，为研究者构建和评估命名实体识别模型奠定了坚实基础。该数据集覆盖解剖结构、化学物质、病理条件和医疗程序四大语义类别，使得模型能够精准提取关键医学概念，进而支持后续的信息检索与知识图谱构建。

衍生相关工作

基于该数据集，学术界已涌现多项针对西班牙语生物医学实体识别的研究，例如结合预训练语言模型如BETO的迁移学习框架。这些工作进一步拓展了多语言医学信息抽取的边界，并催生了跨语种实体对齐、术语标准化等衍生课题。部分研究还探索了将该数据集的标注体系适配到其他拉丁语系临床文本中，形成了系列对比分析与方法改进成果。

数据集最近研究