CLARA-MeD/claramed5000

Name: CLARA-MeD/claramed5000
Creator: CLARA-MeD
Published: 2024-04-02 15:58:29
License: 暂无描述

Hugging Face2024-04-02 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/CLARA-MeD/claramed5000

下载链接

链接失效反馈

官方服务：

资源简介：

CLARA-MeD-5000数据集是一个包含5000个西班牙语句子对的平行语料库，旨在作为医学文本简化的基准。该数据集由两部分组成：3800个半自动对齐和修订的句子对，以及1200个手动简化的句子对。数据集的创建涉及多个来源的医学文本，包括药品说明书、癌症相关信息摘要和临床试验公告。数据集的目标是简化西班牙语医学文本，减少患者在做出知情决策时的语言障碍。

提供机构：

CLARA-MeD

原始信息汇总

数据集概述

数据集名称

CLARA-MeD-5000

数据集描述

目的: 简化西班牙语的医学文本，减少患者理解医学信息的语言障碍。
内容: 包含5000对专业和简化版本的医学句子。
组成部分:
- 3800对句子：半自动对齐并由语言学家校正。
- 1200对句子：由语言学家手动简化。

支持的任务

医学文本简化

语言

西班牙语

数据集结构

数据实例

每个实例包含两个字段：

SOURCE: 专业版本文本。
TARGET: 简化版本文本。

数据字段

SOURCE: 字符串类型，包含专业版本的文本。
TARGET: 字符串类型，包含简化版本的文本。

数据集创建

源数据

来源:
- 药品传单和产品特性概要，来自CIMA。
- 癌症相关信息摘要，来自国家癌症研究所。
- 临床试验公告，来自EudraCT。

标注过程

3800句子：半自动对齐，通过Cohens Kappa测量，平均Kappa为0.839，表明高度一致性。
1200句子：手动简化，通过5点Likert量表评估，平均得分在4.3至4.9之间。

标注者

3800句子：Leonardo Campillos-Llanos等。
1200句子：Rocío Bartolomé-Rodríguez等。

许可证

数据集根据Creative Commons Non-Commercial Attribution (CC-BY-NC-A) 4.0国际许可证发布。

引用信息

3800句子：Campillos Llanos, L. et al. (2022). Building a comparable corpus and a benchmark for Spanish medical text simplification. Procesamiento del lenguaje natural, 69, pp. 189--196.
1200句子：Campillos-Llanos, L. et al. (2024). Enhancing the understanding of clinical trials with a sentence-level simplification dataset. Procesamiento del Lenguaje Natural, 72, pp. 31--43.

5,000+

优质数据集

54 个

任务类型

进入经典数据集