IEETA/SPACCC-Spanish-NER
收藏Hugging Face2024-05-14 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/IEETA/SPACCC-Spanish-NER
下载链接
链接失效反馈官方服务:
资源简介:
本项目使用的合并数据集结合了四个不同的注释数据集,这些数据集均基于西班牙临床病例语料库(SPACCC),该语料库是来自西班牙医学出版物的临床病例报告的汇编。合并数据集共包含16,504个句子,涵盖1,000个临床病例。数据集的主要目标是识别临床叙述中的各种医学实体,包括症状、医疗程序、疾病、蛋白质和化学物质。数据集的注释已标准化为SNOMED CT,确保跨数据集的一致性。数据集分为训练集和测试集,用于医学实体识别和标准化任务的模型训练和评估。
本项目使用的合并数据集结合了四个不同的注释数据集,这些数据集均基于西班牙临床病例语料库(SPACCC),该语料库是来自西班牙医学出版物的临床病例报告的汇编。合并数据集共包含16,504个句子,涵盖1,000个临床病例。数据集的主要目标是识别临床叙述中的各种医学实体,包括症状、医疗程序、疾病、蛋白质和化学物质。数据集的注释已标准化为SNOMED CT,确保跨数据集的一致性。数据集分为训练集和测试集,用于医学实体识别和标准化任务的模型训练和评估。
提供机构:
IEETA
原始信息汇总
数据集概述
数据集基本信息
- 许可证: CC-BY-4.0
- 特征:
- filename: 字符串类型
- ann_id: 整数类型
- label: 字符串类型
- start_span: 整数类型
- end_span: 整数类型
- text: 字符串类型
- 分割:
- 训练集: 33757个样本,3225477字节
- 测试集: 11239个样本,1072603字节
- 下载大小: 6341899字节
- 数据集大小: 4298080字节
数据集描述
- 来源: 合并了四个不同的标注数据集,基于西班牙临床案例语料库(SPACCC)。
- 内容: 包含16,504个句子,涉及1,000个临床案例,专注于识别症状、医疗程序、疾病、蛋白质和化学物质等医疗实体。
- 使用场景: 用于训练和评估西班牙语临床文本中的医疗实体识别和规范化模型。
数据集组成
- SympTEMIST: 12,193个标注,专注于症状、体征和发现。
- MedProcNER: 14,683个标注,专注于医疗程序识别。
- DisTEMIST: 10,663个标注,专注于疾病识别。
- PharmaCoNER: 7,624个标注,专注于化学物质和蛋白质识别。
数据集统计
- 训练集和测试集统计:
- SympTEMIST: 训练集9,091个,测试集3,102个
- MedProcNER: 训练集11,065个,测试集3,618个
- DisTEMIST: 训练集8,065个,测试集2,598个
- PharmaCoNER: 训练集4,665个,测试集1,959个
- 总标注数: 训练集32,886个,测试集11,277个,总计45,163个
数据集使用
- 用途: 用于训练和评估模型,识别和规范化西班牙临床文本中的医疗实体。
- 参考文献: 提供了多篇相关研究和论文的引用。



