five

CLARA-MeD/claramed5000

收藏
Hugging Face2024-04-02 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/CLARA-MeD/claramed5000
下载链接
链接失效反馈
官方服务:
资源简介:
CLARA-MeD-5000数据集是一个包含5000个西班牙语句子对的平行语料库,旨在作为医学文本简化的基准。该数据集由两部分组成:3800个半自动对齐和修订的句子对,以及1200个手动简化的句子对。数据集的创建涉及多个来源的医学文本,包括药品说明书、癌症相关信息摘要和临床试验公告。数据集的目标是简化西班牙语医学文本,减少患者在做出知情决策时的语言障碍。

CLARA-MeD-5000数据集是一个包含5000个西班牙语句子对的平行语料库,旨在作为医学文本简化的基准。该数据集由两部分组成:3800个半自动对齐和修订的句子对,以及1200个手动简化的句子对。数据集的创建涉及多个来源的医学文本,包括药品说明书、癌症相关信息摘要和临床试验公告。数据集的目标是简化西班牙语医学文本,减少患者在做出知情决策时的语言障碍。
提供机构:
CLARA-MeD
原始信息汇总

数据集概述

数据集名称

CLARA-MeD-5000

数据集描述

  • 目的: 简化西班牙语的医学文本,减少患者理解医学信息的语言障碍。
  • 内容: 包含5000对专业和简化版本的医学句子。
  • 组成部分:
    • 3800对句子:半自动对齐并由语言学家校正。
    • 1200对句子:由语言学家手动简化。

支持的任务

医学文本简化

语言

西班牙语

数据集结构

数据实例

每个实例包含两个字段:

  • SOURCE: 专业版本文本。
  • TARGET: 简化版本文本。

数据字段

  • SOURCE: 字符串类型,包含专业版本的文本。
  • TARGET: 字符串类型,包含简化版本的文本。

数据集创建

源数据

  • 来源:
    • 药品传单和产品特性概要,来自CIMA。
    • 癌症相关信息摘要,来自国家癌症研究所。
    • 临床试验公告,来自EudraCT。

标注过程

  • 3800句子:半自动对齐,通过Cohens Kappa测量,平均Kappa为0.839,表明高度一致性。
  • 1200句子:手动简化,通过5点Likert量表评估,平均得分在4.3至4.9之间。

标注者

  • 3800句子:Leonardo Campillos-Llanos等。
  • 1200句子:Rocío Bartolomé-Rodríguez等。

许可证

数据集根据Creative Commons Non-Commercial Attribution (CC-BY-NC-A) 4.0国际许可证发布。

引用信息

  • 3800句子:Campillos Llanos, L. et al. (2022). Building a comparable corpus and a benchmark for Spanish medical text simplification. Procesamiento del lenguaje natural, 69, pp. 189--196.
  • 1200句子:Campillos-Llanos, L. et al. (2024). Enhancing the understanding of clinical trials with a sentence-level simplification dataset. Procesamiento del Lenguaje Natural, 72, pp. 31--43.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作