five

IEETA/SPACCC-Spanish-NER

收藏
Hugging Face2024-05-14 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/IEETA/SPACCC-Spanish-NER
下载链接
链接失效反馈
官方服务:
资源简介:
本项目使用的合并数据集结合了四个不同的注释数据集,这些数据集均基于西班牙临床病例语料库(SPACCC),该语料库是来自西班牙医学出版物的临床病例报告的汇编。合并数据集共包含16,504个句子,涵盖1,000个临床病例。数据集的主要目标是识别临床叙述中的各种医学实体,包括症状、医疗程序、疾病、蛋白质和化学物质。数据集的注释已标准化为SNOMED CT,确保跨数据集的一致性。数据集分为训练集和测试集,用于医学实体识别和标准化任务的模型训练和评估。

本项目使用的合并数据集结合了四个不同的注释数据集,这些数据集均基于西班牙临床病例语料库(SPACCC),该语料库是来自西班牙医学出版物的临床病例报告的汇编。合并数据集共包含16,504个句子,涵盖1,000个临床病例。数据集的主要目标是识别临床叙述中的各种医学实体,包括症状、医疗程序、疾病、蛋白质和化学物质。数据集的注释已标准化为SNOMED CT,确保跨数据集的一致性。数据集分为训练集和测试集,用于医学实体识别和标准化任务的模型训练和评估。
提供机构:
IEETA
原始信息汇总

数据集概述

数据集基本信息

  • 许可证: CC-BY-4.0
  • 特征:
    • filename: 字符串类型
    • ann_id: 整数类型
    • label: 字符串类型
    • start_span: 整数类型
    • end_span: 整数类型
    • text: 字符串类型
  • 分割:
    • 训练集: 33757个样本,3225477字节
    • 测试集: 11239个样本,1072603字节
  • 下载大小: 6341899字节
  • 数据集大小: 4298080字节

数据集描述

  • 来源: 合并了四个不同的标注数据集,基于西班牙临床案例语料库(SPACCC)。
  • 内容: 包含16,504个句子,涉及1,000个临床案例,专注于识别症状、医疗程序、疾病、蛋白质和化学物质等医疗实体。
  • 使用场景: 用于训练和评估西班牙语临床文本中的医疗实体识别和规范化模型。

数据集组成

  • SympTEMIST: 12,193个标注,专注于症状、体征和发现。
  • MedProcNER: 14,683个标注,专注于医疗程序识别。
  • DisTEMIST: 10,663个标注,专注于疾病识别。
  • PharmaCoNER: 7,624个标注,专注于化学物质和蛋白质识别。

数据集统计

  • 训练集和测试集统计:
    • SympTEMIST: 训练集9,091个,测试集3,102个
    • MedProcNER: 训练集11,065个,测试集3,618个
    • DisTEMIST: 训练集8,065个,测试集2,598个
    • PharmaCoNER: 训练集4,665个,测试集1,959个
  • 总标注数: 训练集32,886个,测试集11,277个,总计45,163个

数据集使用

  • 用途: 用于训练和评估模型,识别和规范化西班牙临床文本中的医疗实体。
  • 参考文献: 提供了多篇相关研究和论文的引用。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作