CLARA-MeD/claramed5000
收藏Hugging Face2024-04-02 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/CLARA-MeD/claramed5000
下载链接
链接失效反馈官方服务:
资源简介:
CLARA-MeD-5000数据集是一个包含5000个西班牙语句子对的平行语料库,旨在作为医学文本简化的基准。该数据集由两部分组成:3800个半自动对齐和修订的句子对,以及1200个手动简化的句子对。数据集的创建涉及多个来源的医学文本,包括药品说明书、癌症相关信息摘要和临床试验公告。数据集的目标是简化西班牙语医学文本,减少患者在做出知情决策时的语言障碍。
CLARA-MeD-5000数据集是一个包含5000个西班牙语句子对的平行语料库,旨在作为医学文本简化的基准。该数据集由两部分组成:3800个半自动对齐和修订的句子对,以及1200个手动简化的句子对。数据集的创建涉及多个来源的医学文本,包括药品说明书、癌症相关信息摘要和临床试验公告。数据集的目标是简化西班牙语医学文本,减少患者在做出知情决策时的语言障碍。
提供机构:
CLARA-MeD
原始信息汇总
数据集概述
数据集名称
CLARA-MeD-5000
数据集描述
- 目的: 简化西班牙语的医学文本,减少患者理解医学信息的语言障碍。
- 内容: 包含5000对专业和简化版本的医学句子。
- 组成部分:
- 3800对句子:半自动对齐并由语言学家校正。
- 1200对句子:由语言学家手动简化。
支持的任务
医学文本简化
语言
西班牙语
数据集结构
数据实例
每个实例包含两个字段:
SOURCE: 专业版本文本。TARGET: 简化版本文本。
数据字段
SOURCE: 字符串类型,包含专业版本的文本。TARGET: 字符串类型,包含简化版本的文本。
数据集创建
源数据
- 来源:
- 药品传单和产品特性概要,来自CIMA。
- 癌症相关信息摘要,来自国家癌症研究所。
- 临床试验公告,来自EudraCT。
标注过程
- 3800句子:半自动对齐,通过Cohens Kappa测量,平均Kappa为0.839,表明高度一致性。
- 1200句子:手动简化,通过5点Likert量表评估,平均得分在4.3至4.9之间。
标注者
- 3800句子:Leonardo Campillos-Llanos等。
- 1200句子:Rocío Bartolomé-Rodríguez等。
许可证
数据集根据Creative Commons Non-Commercial Attribution (CC-BY-NC-A) 4.0国际许可证发布。
引用信息
- 3800句子:Campillos Llanos, L. et al. (2022). Building a comparable corpus and a benchmark for Spanish medical text simplification. Procesamiento del lenguaje natural, 69, pp. 189--196.
- 1200句子:Campillos-Llanos, L. et al. (2024). Enhancing the understanding of clinical trials with a sentence-level simplification dataset. Procesamiento del Lenguaje Natural, 72, pp. 31--43.



