five

CLARA-MeD/claramed1200

收藏
Hugging Face2024-04-02 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/CLARA-MeD/claramed1200
下载链接
链接失效反馈
官方服务:
资源简介:
CLARA-MeD-1200数据集是一个包含1200对句子的平行语料库,用于医学文本简化。该数据集由CLARA-MeD项目收集,旨在简化西班牙语医学文本,降低患者理解医学文本的语言障碍。数据集支持的任务是医学文本简化,语言为西班牙语。每个实例包含源文本(专业版本)和目标文本(简化版本)的字符串。源数据来自EudraCT的临床试验公告,注释过程包括手动简化医学句子,并由三名独立评估者评估简化质量。数据集没有包含个人和敏感信息,并遵循CC-BY-NC-4.0许可证。

CLARA-MeD-1200数据集是一个包含1200对句子的平行语料库,用于医学文本简化。该数据集由CLARA-MeD项目收集,旨在简化西班牙语医学文本,降低患者理解医学文本的语言障碍。数据集支持的任务是医学文本简化,语言为西班牙语。每个实例包含源文本(专业版本)和目标文本(简化版本)的字符串。源数据来自EudraCT的临床试验公告,注释过程包括手动简化医学句子,并由三名独立评估者评估简化质量。数据集没有包含个人和敏感信息,并遵循CC-BY-NC-4.0许可证。
提供机构:
CLARA-MeD
原始信息汇总

数据集概述

数据集名称

CLARA-MeD-1200

数据集描述

CLARA-MeD-1200是一个包含1200对专业和简化版本的医学文本平行语料库,旨在简化西班牙语医学文本,减少患者理解医学信息的语言障碍。

支持的任务

医学文本简化

语言

西班牙语

数据集结构

数据实例

每个实例包含两个字段:

  • SOURCE: 专业版本的文本字符串。
  • TARGET: 简化版本的文本字符串。

数据字段

  • SOURCE: 字符串类型,包含专业版本的文本。
  • TARGET: 字符串类型,包含简化版本的文本。

数据集创建

源数据

  • 来源语言生产者: 临床试验公告,来自EudraCT。

注释

  • 注释过程: 手动简化技术医学句子,涉及句法和词汇层面的简化。通过5点李克特量表问卷,三名独立评估者评估简化质量。
  • 注释者: Rocío Bartolomé-Rodríguez, Leonardo Campillos-Llanos, Ana Rosa Terroba-Reinares。

许可信息

数据集遵循Creative Commons Non-Commercial Attribution (CC-BY-NC-A) 4.0国际许可,主要用于研究和教育目的。

引用信息

@article{campillosetal2024, title={Enhancing the understanding of clinical trials with a sentence-level simplification dataset}, author={Campillos-Llanos, Leonardo and Bartolom{e}-Rodr{i}guez, Roc{i}o and Terroba Reinares, Ana R.}, title={Procesamiento del Lenguaje Natural}, volume={72}, year={2024}, pages={31--43}, publisher={Sociedad Espa{~n}ola para el Procesamiento del Lenguaje Natural} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作