PEACH

Name: PEACH
Creator: 沙迦大学外国语言系
Published: 2025-08-07 22:49:48
License: 暂无描述

arXiv2025-08-07 更新2025-08-12 收录

下载链接：

https://data.mendeley.com/datasets/5k6yrrhng7/1

下载链接

链接失效反馈

官方服务：

资源简介：

PEACH是一个句子对齐的平行英语-阿拉伯语医疗文本语料库，包括患者信息手册和教育材料。语料库包含51,671个平行句子，总计约590,517个英语和567,707个阿拉伯语单词。句子长度平均在9.52到11.83个单词之间。作为一个手动对齐的语料库，PEACH是一个金标准语料库，有助于对比语言学、翻译研究和自然语言处理的研究人员。它可以用于推导双语词汇、为特定领域的机器翻译调整大型语言模型、评估用户对医疗保健中机器翻译的感知、评估患者信息手册和教育材料的可读性和对非专业人群的友好性，以及在翻译研究中作为教育资源。PEACH是公开的。

提供机构：

沙迦大学外国语言系

创建时间：

2025-08-07

原始信息汇总

PEACH: A Sentence-Aligned Parallel English-Arabic Corpus for Healthcare

基本信息

发布版本: Version 1
发布日期: 19 April 2024
DOI: 10.17632/5k6yrrhng7.1
贡献者: Rania Al-Sabbagh

数据集描述

类型: 句子对齐的平行语料库
语言: 英语-阿拉伯语
领域: 医疗保健
详细信息: 更多信息和数据文件将在论文发表后提供。

文件

Patient Educational Materials:
- 格式: xlsx
- 文件: Patient-educational-materials-metadata.xlsx
- 大小: 18.1 KB
Patient Information Leaflets:
- 格式: xlsx
- 文件: Patient-information-leaflets-metadata.xlsx
- 大小: 17 KB

机构

所属机构: University of Sharjah

资助

资助机构: University of Sharjah
资助编号: Seed Research Grant No. 2203020129

许可

许可证: CC BY 4.0

数据集指标

浏览次数: 198
下载次数: 21

版本信息

最新版本: Version 32 December 2024
历史版本:
- Version 22 December 2024
- Version 1 (19 Apr 2024)

引用

Al-Sabbagh, Rania (2024), “PEACH: A Sentence-Aligned Parallel English-Arabic Corpus for Healthcare ”, Mendeley Data, V1, doi: 10.17632/5k6yrrhng7.1

搜集汇总

数据集介绍

构建方式

PEACH数据集的构建过程体现了严谨的学术规范与跨学科协作。该数据集通过专业网络爬虫技术从沙特食品药物管理局(SFDA)官网采集517份HTML格式的英文-阿拉伯语药品说明书，同时从美国Health Information Translations(HIT)项目获取PDF格式的双栏健康指南。原始文件经过去重清洗后，采用Beautiful Soup解析HTML内容，并运用Sotoor光学字符识别系统处理PDF文件。为确保数据质量，由沙迦大学翻译专业高年级学生对OCR转换结果进行人工校对，重点修正阿拉伯语变音符号及医学术语转写错误。最终由四位具备医疗翻译经验的标注员按照严格协议完成句子级人工对齐，建立包含51,671句对的平行语料库，涵盖一对一、一对多、多对一等复杂对齐类型。

使用方法

PEACH数据集支持多维度学术研究与应用开发。在自然语言处理领域，研究者可利用该资源训练领域适配的神经机器翻译模型，经实证验证可使BLEU值提升4.14分。对比语言学学者可通过平行文本分析医疗术语的跨语言对应规律，如英语复合词'methylparaben'与阿拉伯语转写形式的技术对译。医学人文研究则可基于语料开展药品说明书的可读性评估，验证阿拉伯语译本是否达到GCC规定的通俗性标准。教育应用方面，该数据集可作为高校医学翻译课程的实训素材，帮助学生掌握药品说明书特有的文本规范与术语体系。使用前建议进行数据标准化处理，包括统一阿拉伯语字符编码、分割长复合句等操作以优化模型训练效果。

背景与挑战

背景概述

PEACH（Parallel English–Arabic Corpus for Healthcare）是由Rania Al-Sabbagh等人于2024年推出的一个句子对齐的英语-阿拉伯语平行语料库，专注于医疗健康领域。该语料库包含51,671对平行句子，涵盖了患者信息传单和教育材料，总词数约为590,517个英语单词和567,707个阿拉伯语单词。PEACH由沙迦大学（University of Sharjah）的研究团队主导开发，旨在支持对比语言学、翻译研究和自然语言处理等领域的研究。其数据来源包括沙特食品和药物管理局（SFDA）的患者信息传单以及美国多家医疗机构赞助的健康教育材料。PEACH的发布为医疗领域的双语词典构建、领域特定机器翻译模型的优化以及翻译教学提供了重要资源。

当前挑战

PEACH语料库在构建和应用过程中面临多重挑战。在领域问题方面，医疗文本的翻译需要高度专业化的术语处理，而英语和阿拉伯语在语法结构和表达习惯上的差异进一步增加了对齐和翻译的难度。此外，医疗文本的指令性功能（如使用大量祈使句和枚举结构）要求翻译不仅准确，还需符合目标语言的文化习惯。在构建过程中，数据来源的异构性（如HTML和PDF格式的混合）以及OCR技术的不完美性导致预处理阶段需投入大量人工校对。另外，翻译过程的透明度不足（如SFDA传单的翻译方法论未明确公开）也对语料库的可靠性评估提出了挑战。这些因素共同凸显了专业领域平行语料库构建的复杂性与精细化管理需求。

常用场景

经典使用场景

PEACH数据集作为英语-阿拉伯语对齐的医疗平行语料库，在对比语言学和翻译研究中具有重要价值。其经典使用场景包括为研究者提供高质量的医疗文本对齐数据，支持双语词典的构建和领域专用机器翻译模型的训练。通过分析患者信息手册和教育材料的语言特征，研究者能够深入探讨医疗文本的翻译策略和语言表达差异。

解决学术问题

该数据集有效解决了医疗领域机器翻译质量评估、双语术语对齐及跨语言信息可读性分析等学术问题。其手动对齐的黄金标准特性为研究者提供了可靠的基准数据，有助于验证自动对齐算法的准确性。同时，数据集涵盖丰富的医疗术语和句式结构，为医疗语言处理和翻译教育研究提供了重要资源。

实际应用

在实际应用中，PEACH数据集被用于优化医疗领域的机器翻译系统，提升阿拉伯语地区患者对英语医疗信息的理解度。医疗机构和制药公司可利用该数据集改进患者信息手册的翻译质量，确保医疗信息的准确传达。此外，该数据集还支持开发面向阿拉伯语使用者的医疗信息辅助工具，促进健康知识的普及。

数据集最近研究