CLARA-MeD/claramed1200
收藏Hugging Face2024-04-02 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/CLARA-MeD/claramed1200
下载链接
链接失效反馈官方服务:
资源简介:
CLARA-MeD-1200数据集是一个包含1200对句子的平行语料库,用于医学文本简化。该数据集由CLARA-MeD项目收集,旨在简化西班牙语医学文本,降低患者理解医学文本的语言障碍。数据集支持的任务是医学文本简化,语言为西班牙语。每个实例包含源文本(专业版本)和目标文本(简化版本)的字符串。源数据来自EudraCT的临床试验公告,注释过程包括手动简化医学句子,并由三名独立评估者评估简化质量。数据集没有包含个人和敏感信息,并遵循CC-BY-NC-4.0许可证。
CLARA-MeD-1200数据集是一个包含1200对句子的平行语料库,用于医学文本简化。该数据集由CLARA-MeD项目收集,旨在简化西班牙语医学文本,降低患者理解医学文本的语言障碍。数据集支持的任务是医学文本简化,语言为西班牙语。每个实例包含源文本(专业版本)和目标文本(简化版本)的字符串。源数据来自EudraCT的临床试验公告,注释过程包括手动简化医学句子,并由三名独立评估者评估简化质量。数据集没有包含个人和敏感信息,并遵循CC-BY-NC-4.0许可证。
提供机构:
CLARA-MeD
原始信息汇总
数据集概述
数据集名称
CLARA-MeD-1200
数据集描述
CLARA-MeD-1200是一个包含1200对专业和简化版本的医学文本平行语料库,旨在简化西班牙语医学文本,减少患者理解医学信息的语言障碍。
支持的任务
医学文本简化
语言
西班牙语
数据集结构
数据实例
每个实例包含两个字段:
SOURCE: 专业版本的文本字符串。TARGET: 简化版本的文本字符串。
数据字段
SOURCE: 字符串类型,包含专业版本的文本。TARGET: 字符串类型,包含简化版本的文本。
数据集创建
源数据
- 来源语言生产者: 临床试验公告,来自EudraCT。
注释
- 注释过程: 手动简化技术医学句子,涉及句法和词汇层面的简化。通过5点李克特量表问卷,三名独立评估者评估简化质量。
- 注释者: Rocío Bartolomé-Rodríguez, Leonardo Campillos-Llanos, Ana Rosa Terroba-Reinares。
许可信息
数据集遵循Creative Commons Non-Commercial Attribution (CC-BY-NC-A) 4.0国际许可,主要用于研究和教育目的。
引用信息
@article{campillosetal2024, title={Enhancing the understanding of clinical trials with a sentence-level simplification dataset}, author={Campillos-Llanos, Leonardo and Bartolom{e}-Rodr{i}guez, Roc{i}o and Terroba Reinares, Ana R.}, title={Procesamiento del Lenguaje Natural}, volume={72}, year={2024}, pages={31--43}, publisher={Sociedad Espa{~n}ola para el Procesamiento del Lenguaje Natural} }



