IEETA/SPACCC-Spanish-NER

Name: IEETA/SPACCC-Spanish-NER
Creator: IEETA
Published: 2024-05-14 12:46:28
License: 暂无描述

Hugging Face2024-05-14 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/IEETA/SPACCC-Spanish-NER

下载链接

链接失效反馈

官方服务：

资源简介：

本项目使用的合并数据集结合了四个不同的注释数据集，这些数据集均基于西班牙临床病例语料库（SPACCC），该语料库是来自西班牙医学出版物的临床病例报告的汇编。合并数据集共包含16,504个句子，涵盖1,000个临床病例。数据集的主要目标是识别临床叙述中的各种医学实体，包括症状、医疗程序、疾病、蛋白质和化学物质。数据集的注释已标准化为SNOMED CT，确保跨数据集的一致性。数据集分为训练集和测试集，用于医学实体识别和标准化任务的模型训练和评估。

提供机构：

IEETA

原始信息汇总

数据集概述

数据集基本信息

许可证: CC-BY-4.0
特征:
- filename: 字符串类型
- ann_id: 整数类型
- label: 字符串类型
- start_span: 整数类型
- end_span: 整数类型
- text: 字符串类型
分割:
- 训练集: 33757个样本，3225477字节
- 测试集: 11239个样本，1072603字节
下载大小: 6341899字节
数据集大小: 4298080字节

数据集描述

来源: 合并了四个不同的标注数据集，基于西班牙临床案例语料库(SPACCC)。
内容: 包含16,504个句子，涉及1,000个临床案例，专注于识别症状、医疗程序、疾病、蛋白质和化学物质等医疗实体。
使用场景: 用于训练和评估西班牙语临床文本中的医疗实体识别和规范化模型。

数据集组成

SympTEMIST: 12,193个标注，专注于症状、体征和发现。
MedProcNER: 14,683个标注，专注于医疗程序识别。
DisTEMIST: 10,663个标注，专注于疾病识别。
PharmaCoNER: 7,624个标注，专注于化学物质和蛋白质识别。

数据集统计

训练集和测试集统计:
- SympTEMIST: 训练集9,091个，测试集3,102个
- MedProcNER: 训练集11,065个，测试集3,618个
- DisTEMIST: 训练集8,065个，测试集2,598个
- PharmaCoNER: 训练集4,665个，测试集1,959个
总标注数: 训练集32,886个，测试集11,277个，总计45,163个

数据集使用

用途: 用于训练和评估模型，识别和规范化西班牙临床文本中的医疗实体。
参考文献: 提供了多篇相关研究和论文的引用。

5,000+

优质数据集

54 个

任务类型

进入经典数据集