arz-en-parallel-corpus

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/IbrahimAmin/arz-en-parallel-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

埃及阿拉伯语-英语平行语料库是一个经过清理和过滤的多个埃及阿拉伯语-英语平行语料库的合并，包含大约27,000对对齐的句子对。该语料库旨在供从事机器翻译、语音翻译和其他涉及埃及阿拉伯语和英语的NLP任务的研究人员和开发人员使用。

创建时间：

2025-05-16

原始信息汇总

埃及阿拉伯语-英语平行语料库 🇪🇬✨🇬🇧

数据集描述

名称: Egyptian Arabic-English Parallel Corpus
语言: 埃及阿拉伯语 (arz), 英语 (en)
用途: 机器翻译、语音识别等NLP任务
数据量: ~27,000条平行句对
许可证: MIT License

数据集结构

特征:
- arz: 埃及阿拉伯语句子
- en: 英语句子
分割:

分割样本数字节数

训练集 25,000 3,686,265

测试集 1,851 275,240

总计 26,851 3,961,505

数据来源

预处理步骤

移除仅含数字或无意义标记的行
移除特殊标签（如[HES], [LAUGHTER]）和括号内容
过滤缺失或空翻译
消除重复样本
随机打乱数据集顺序

使用示例

python from datasets import load_dataset dataset = load_dataset("IbrahimAmin/arz-en-parallel-corpus") print(dataset[train][0])

引用

bibtex @inproceedings{hamed-etal-2022-arzen, title = {ArzEn-ST: A Three-way Speech Translation Corpus for Code-Switched Egyptian Arabic-English}, author = {Hamed, Injy and Habash, Nizar and Abdennadher, Slim and Vu, Ngoc Thang}, booktitle = {Proceedings of the Seventh Arabic Natural Language Processing Workshop (WANLP)}, pages = {119--130}, year = {2022}, publisher = {Association for Computational Linguistics} }

bibtex @article{al-sabbagh-2024-arzen-multigenre, title = {ArzEn-MultiGenre: An aligned parallel dataset of Egyptian Arabic song lyrics, novels, and subtitles, with English translations}, author = {Al-Sabbagh, Rania}, journal = {Data in Brief}, volume = {54}, pages = {110271}, year = {2024}, publisher = {Elsevier} }

bibtex @misc{amin2025arzenparallel, author = {Amin, Ibrahim}, title = {Egyptian Arabic - English Parallel Corpus}, year = {2025}, url = {https://huggingface.co/datasets/IbrahimAmin/arz-en-parallel-corpus}, note = {MIT License. Curated and cleaned from multiple public datasets.} }

搜集汇总

数据集介绍

构建方式

在埃及阿拉伯语与英语双语资源稀缺的背景下，该数据集通过整合多个公开平行语料库构建而成。构建过程融合了ArzEn-MultiGenre、Egyptian_English_parallel等四个权威来源，采用多阶段清洗策略：剔除纯数字或无效符号的样本，移除[HES]等特殊标记及括号内容，过滤缺失翻译项，并通过全行内容去重与随机混排，最终形成约2.7万句高质量对齐语料。

特点

作为埃及阿拉伯语研究领域的重要资源，该数据集具备鲜明的多源异构特性。其内容覆盖歌词、小说、影视字幕等多体裁文本，呈现丰富的语言现象与代码转换特征。数据集严格划分训练集与测试集，分别包含2.5万和1851个样本，采用UTF-8编码存储双语句对，为机器翻译模型训练提供了标准化的数据支撑。

使用方法

针对埃及阿拉伯语-英语机器翻译任务，研究者可通过HuggingFace平台直接加载数据集。使用load_dataset函数调用数据集标识符后，可分别访问train和test分割中的双语句对。每个样本以字典形式呈现arz与en字段，支持端到端神经网络翻译模型的训练与评估，亦适用于语音翻译系统的开发验证。

背景与挑战

背景概述

埃及阿拉伯语-英语平行语料库作为低资源语言机器翻译研究的重要资源，由Ibrahim Amin等研究者于2025年整合发布。该数据集融合了多个公开语料资源，包括Hesham Haroon、arbml团队及Injy Hamed等人构建的ArzEn-ST、ArzEn-MultiGenre等核心语料，涵盖歌词、小说、影视字幕等多类型文本。其诞生源于埃及阿拉伯语作为口语变体长期缺乏标准化平行数据的困境，通过整合约2.7万句对齐语料，显著推动了阿拉伯语方言机器翻译与语音翻译研究的发展，为跨语言自然语言处理任务提供了关键基础设施。

当前挑战

在机器翻译领域，埃及阿拉伯语因缺乏标准书写规范与方言变体复杂性，面临语义歧义消解和代码转换处理的根本性挑战。数据集构建过程中需克服多源语料对齐偏差问题，包括影视字幕中的非正式表达过滤、歌词文本的诗意结构归一化，以及跨领域文本的语义一致性维护。此外，数据清洗需精准处理特殊标记（如[HES]等副语言符号）与括号内容，同时消除数字占位样本与重复条目，确保平行语料在语法结构和文化语境层面的有效对应。

常用场景

经典使用场景

在阿拉伯语方言机器翻译研究中，埃及阿拉伯语-英语平行语料库作为关键资源，广泛应用于神经机器翻译模型的训练与评估。该数据集通过融合多领域文本，包括歌词、小说和影视字幕，为构建端到端翻译系统提供了高质量的平行数据支撑，显著提升了埃及方言与英语之间的互译质量。

实际应用

在实际场景中，该数据集支撑了面向埃及地区的智能语音助手开发，实现了阿拉伯方言与英语的实时互译功能。其多体裁语料特性进一步促进了跨境商务沟通、多媒体内容本地化等应用，为中东地区的数字服务提供了核心语言技术支持。

衍生相关工作

基于此数据集衍生的经典研究包括ArzEn-ST三语语音翻译框架，该工作首次实现了埃及阿拉伯语-英语的语音到文本跨模态翻译。后续研究则拓展出多体裁混合训练范式，推动了方言适应性预训练模型的发展，为阿拉伯语族自然语言处理技术体系奠定了重要基石。

以上内容由遇见数据集搜集并总结生成

分割	样本数	字节数
训练集	25,000	3,686,265
测试集	1,851	275,240
总计	26,851	3,961,505