ArzEn-MultiGenre

Name: ArzEn-MultiGenre
Creator: 沙迦大学外国语学院，阿拉伯联合酋长国
Published: 2025-08-02 23:28:41
License: 暂无描述

arXiv2025-08-02 更新2025-08-06 收录

下载链接：

https://data.mendeley.com/datasets/6k97jty9xg/4

下载链接

链接失效反馈

官方服务：

资源简介：

ArzEn-MultiGenre 是一个包含埃及阿拉伯语歌曲歌词、小说和电视节目字幕的平行数据集，这些内容都被人工翻译并与英文对应内容对齐。数据集包含 25557 个段对，可用于评估新的机器翻译模型的性能，在少量样本的情况下微调大型语言模型，以及适应商业机器翻译应用程序，如 Google Translate。此外，该数据集对于翻译研究、跨语言分析和词汇语义研究等各个学科的研究也具有重要价值。数据集还可用作翻译学生的训练材料和专业翻译人员的翻译记忆。ArzEn-MultiGenre 的贡献主要有两方面：首先，该数据集包含了现有平行埃及阿拉伯语和英语数据集中未出现过的文本类型；其次，它是一个金标准数据集，已经由人工翻译并对齐。

提供机构：

沙迦大学外国语学院，阿拉伯联合酋长国

创建时间：

2025-08-02

原始信息汇总

ArzEn-MultiGenre: 埃及阿拉伯语歌曲歌词、小说和字幕的平行对齐数据集（含英语翻译）

数据集概述

发布日期: 2024年1月30日
版本: 4
DOI: 10.17632/6k97jty9xg.4
贡献者: Rania Al-Sabbagh

数据集描述

内容: 包含25,557个对齐的埃及阿拉伯语（Arz）和英语（En）句子对，涵盖三种类型：
- 小说: 5,226个句子对
- 字幕: 17,265个句子对
- 歌曲: 3,066个句子对
特点:
1. 包含三种在现有Arz-En平行数据集中未涵盖的类型。
2. 手动翻译和对齐，区别于众包的Arz-En平行数据集。
3. 数据量较大，相比部分现有Arz-En平行数据集。
词汇统计:
- 阿拉伯语单词标记: 154,658
- 英语单词标记: 210,068
- 阿拉伯语单词类型: 29,179
- 英语单词类型: 18,131
- 阿拉伯语类型-标记比: 19%
- 英语类型-标记比: 9%
分段长度:
- 小说: 54个单词语段，1,269个2-5词语段，3,903个6词及以上语段。
- 字幕: 2,689个单词语段，9,252个2-5词语段，5,324个6词及以上语段。
- 歌曲: 整体语段较少。

下载信息

文件大小: 1.84 MB
文件格式: .zip
SHA-256校验和: f380d2f5b0a756f16445970b2dcf4c5d24abbaef8d9d2b3f192b4c675304d9ba

机构

所属机构: University of Sharjah

许可

许可类型: CC BY 4.0

数据集指标

浏览次数: 618
下载次数: 260
引用次数: 1

版本信息

最新版本: 版本5（2024年3月18日）
当前版本: 版本4（2024年1月30日）
其他版本: 版本3（2023年12月28日）、版本2（2023年12月27日）、版本1（2023年12月19日）

引用格式

Al-Sabbagh, Rania (2024), “ArzEn-MultiGenre: An aligned parallel dataset of Egyptian Arabic song lyrics, novels, and subtitles, with English translations”, Mendeley Data, V4, doi: 10.17632/6k97jty9xg.4

搜集汇总

数据集介绍

构建方式

ArzEn-MultiGenre数据集的构建采用了多源数据整合与人工精细化处理相结合的方法。针对歌词部分，研究团队通过自主开发的网络爬虫从Aghani Lyrics网站抓取埃及阿拉伯语歌词，随后由专业翻译人员手动翻译成英文。小说部分则通过购买英文及埃及阿拉伯语原版书籍，利用Sotoor光学字符识别系统进行数字化转换，并经过人工校对确保文本准确性。字幕数据选自Netflix平台的两部剧集，由精通双语的转录员严格遵循编码混合规则进行文本转写。所有文本均按照语义单元进行分段，并由语言专家采用微软Excel工具完成句级对齐，最终形成包含25,557个对齐段落的高质量平行语料库。

使用方法

该数据集支持多维度研究与应用场景。在自然语言处理领域，可直接用于神经机器翻译模型的训练与评估，尤其适合解决方言翻译中的负迁移问题。通过AutoML Translation等工具对商业翻译系统（如Google Translate）进行定制化训练，可显著提升BLEU评分。翻译学研究可利用其分析不同文体间的转换策略，特别是文化负载词与性别标记的处理差异。教育学应用方面，双语对齐文本可作为翻译记忆库辅助专业译员，或用于训练学生的文体适应能力。使用时需注意数据分区建议，原始Excel文件按文体分类存储，其中字幕部分需特别关注SDH与非SDH版本间的翻译差异。

背景与挑战

背景概述

ArzEn-MultiGenre是由沙迦大学外语系的Rania Al-Sabbagh于2024年创建的埃及阿拉伯语与英语平行数据集，涵盖歌曲歌词、小说和电视剧字幕三种文本类型。该数据集包含25,557个手动翻译和对齐的文本段，旨在填补现有阿拉伯方言与英语平行数据集的空白，特别是在多样化文本类型方面的不足。其核心研究问题聚焦于提升机器翻译模型在阿拉伯方言处理上的性能，并为翻译研究、跨语言分析和词汇语义学等领域提供高质量资源。该数据集的独特价值在于其多样化的文本类型和人工翻译的高质量标准，使其成为自然语言处理研究和实际应用中的重要工具。

当前挑战

ArzEn-MultiGenre面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，该数据集旨在解决埃及阿拉伯语与英语之间的机器翻译问题，特别是处理方言中的文化特定表达、俚语和快速演变的语言现象。这些语言特性对自动化模型提出了较高要求，需要模型能够处理一词多义、习语和文化引用等复杂情况。在构建过程中，研究人员面临数据收集和处理的挑战，包括从不同来源获取数据（如网页爬取歌词、扫描小说和使用OCR技术转换文本）、确保翻译质量（需专业翻译人员参与）以及处理埃及阿拉伯语缺乏标准化拼写和标点规则的问题。此外，数据集构建还需解决代码混合现象（如英语与阿拉伯语的混合使用）带来的额外复杂性。

常用场景

经典使用场景

ArzEn-MultiGenre数据集在机器翻译领域具有广泛的应用价值，特别是在埃及阿拉伯语和英语之间的翻译任务中。其独特的文本类型（歌词、小说和字幕）为研究人员提供了多样化的语料，能够有效评估翻译模型在不同文体中的表现。该数据集通过人工翻译和对齐，确保了高质量的数据标准，成为评估新模型性能的黄金基准。

解决学术问题

ArzEn-MultiGenre解决了机器翻译研究中缺乏多样化文本类型和高质量平行数据的问题。通过提供包含歌词、小说和字幕的语料，该数据集填补了现有资源的空白，支持了跨语言分析、词汇语义学和翻译策略的研究。此外，其人工翻译的特性为研究文化特定表达和性别翻译等复杂问题提供了可靠数据。

实际应用

在实际应用中，ArzEn-MultiGenre被用于优化商业机器翻译系统（如Google Translate）的性能。通过微调大型语言模型，该数据集显著提升了翻译质量，特别是在处理埃及阿拉伯语的方言和文化特定表达时。此外，它还广泛应用于翻译教学和专业翻译工作中，帮助培训学生和提升翻译记忆库的质量。

数据集最近研究