Tarjama-25
收藏arXiv2025-05-23 更新2025-05-27 收录
下载链接:
https://huggingface.co/datasets/Misraj/Tarjama-25
下载链接
链接失效反馈官方服务:
资源简介:
Tarjama-25是一个为双向阿拉伯语-英语翻译任务设计的基准数据集。它由5000对经过专家审查的句子对组成,涵盖了广泛的领域,如科学、技术、医疗保健、文化、法律、宗教和科技等。数据集旨在解决现有阿拉伯语-英语数据集的局限性,如领域狭窄、句子长度短、英语源偏见等问题。Tarjama-25旨在提供一个更全面、更平衡的评估框架,以促进阿拉伯语-英语翻译系统的评估和研究。
Tarjama-25 is a benchmark dataset designed for bidirectional Arabic-English translation tasks. It consists of 5,000 expert-reviewed sentence pairs covering a wide range of domains including science, technology, healthcare, culture, law, religion, and emerging technologies. This dataset aims to address the limitations of existing Arabic-English datasets, such as narrow domain coverage, short sentence lengths, and English source bias. Tarjama-25 aims to provide a more comprehensive and balanced evaluation framework to facilitate the evaluation and research of Arabic-English translation systems.
提供机构:
沙特阿拉伯的Misraj AI公司
创建时间:
2025-05-23
原始信息汇总
Tarjama-25 数据集概述
数据集简介
Tarjama-25 是一个高质量的阿拉伯语 ↔ 英语双向机器翻译基准数据集,专为测试现代机器翻译模型而设计。该数据集包含长句,且句子在阿拉伯语和英语中均有一半原始内容,经过专业翻译和双向验证。
关键特性
- 句子对数:5000
- 平均句子长度:50 – 100 个词(约75)
- 覆盖领域:科学、技术、医疗、文化、通用
数据集结构
- 字段:
Arabic:阿拉伯语句子(string)English:英语句子(string)category:类别(string),包括通用、新闻、伊斯兰、医疗、化学和物理source:来源(string),标记为"en-to-ar"或"ar-to-en"
数据集统计
- 训练集:
- 样本数:5081
- 大小:7119057 字节
- 下载大小:3810341 字节
- 数据集总大小:7119057 字节
使用方式
python from datasets import load_dataset
ds = load_dataset("Misraj/Tarjama-25")
评估结果
阿拉伯语 → 英语
- 表现最佳模型:
- Mutarjim(1.5 B):BLEU 55.28
- GPT-4o mini:COMET 83.67, ChrF++ 76.08
英语 → 阿拉伯语
- 表现最佳模型:
- Mutarjim(1.5 B):COMET 83.41, ChrF++ 68.67, BLEU 43.71
引用
latex @misc{hennara2025mutarjimadvancingbidirectionalarabicenglish, title={Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model}, author={Khalil Hennara and Muhammad Hreden and Mohamed Motaism Hamed and Zeina Aldallal and Sara Chrouf and Safwan AlModhayan}, year={2025}, eprint={2505.17894}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.17894}, }
搜集汇总
数据集介绍

构建方式
Tarjama-25数据集的构建过程体现了严谨的学术态度与多阶段验证机制。研究团队从30,000句阿拉伯语和英语原始语句出发,通过专业翻译团队的双向转译构建初始平行语料,最终精选5,000组句子对进行专家级人工校验。该过程特别注重领域平衡性,覆盖科技、医疗、法律等多元场景,并严格控制句子长度在50-100词范围内以增强语言模型的长文本处理能力。为确保文化适应性,数据集严格保持阿拉伯语与英语源文本1:1的比例,有效解决了传统双语数据集中存在的英语中心主义偏差问题。
特点
作为阿拉伯语-英语机器翻译领域的新型基准,Tarjama-25展现出三大核心特征:其领域覆盖广度突破传统局限,包含宗教典籍与地方法规等专业文本;双向平行语料设计通过源语言平衡策略,为模型双向翻译能力评估提供科学依据;专家级人工校验机制确保每个句子对达到出版级语言质量,其中医学与法律文本还经过领域专家二次验证。特别值得注意的是,该数据集通过排除网络爬取内容,有效规避了大语言模型预训练数据污染问题,为公平评估提供了纯净测试环境。
使用方法
该数据集作为评估基准使用时,研究者可采用标准机器翻译指标(BLEU/chrF++/COMET)进行系统性能测量。对于模型开发阶段,建议将数据按7:1:2比例划分为训练集、验证集和测试集,其中测试集应保持领域分布均衡性以反映真实场景。在具体实施中,需注意阿拉伯语特有的形态学特征,建议配合专用分词工具处理变体形式。数据集提供的元数据标签支持领域适应性研究,开发者可通过领域子集分析模型在专业场景下的性能差异。为保障结果可比性,官方评测工具包推荐采用统一提示词模板进行解码生成。
背景与挑战
背景概述
Tarjama-25是由Misraj AI的研究团队于2025年推出的阿拉伯语-英语双向机器翻译基准数据集,旨在解决现有评测数据集的三大局限性:领域狭窄性、短句主导性以及英语源语偏见。该数据集包含5,000组经过专家审校的平行句对,覆盖医疗、法律、科技等多元领域,且阿拉伯语与英语源文本数量严格对等。作为论文《Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model》的核心贡献之一,该数据集通过平衡的语向分布和长句式设计(50-100词/句),为评估现代语言模型处理阿拉伯语复杂形态特征的能力提供了更真实的测试环境,显著提升了低资源语言机器翻译研究的评估信度。
当前挑战
在领域问题层面,Tarjama-25直面阿拉伯语机器翻译特有的三大挑战:1) 阿拉伯语丰富的词形变化和语法复杂性导致目标语生成准确度不足;2) 现有评测数据集普遍存在的英语源语偏见(English-source bias)使模型在阿译英方向表现显著优于英译阿;3) 短句主导的评估范式无法有效检验模型处理长距离依赖的能力。在构建过程中,研究团队需克服:1) 双语专家资源稀缺导致的标注成本激增;2) 专业领域(如伊斯兰教法文本)术语对齐的准确性保障;3) 消除预训练数据污染(contamination)对评估结果的干扰,这要求构建全新的原始语料而非复用现有平行语料库。
常用场景
经典使用场景
在阿拉伯语-英语双向机器翻译研究中,Tarjama-25数据集作为评估基准被广泛采用。该数据集包含5000个经过专家审校的句子对,覆盖医学、法律、科技等多个领域,且源语言在阿拉伯语和英语之间均衡分布。研究者在开发新型翻译模型时,常利用该数据集验证模型在长句处理、领域适应性和双向翻译能力等方面的表现,其较长的句子长度(50-100词)和严格的去污染处理使其成为评估模型真实性能的理想选择。
解决学术问题
Tarjama-25有效解决了阿拉伯语机器翻译领域三大核心问题:现有基准的英语源语言偏见、短句主导的评估局限性以及领域覆盖狭窄的缺陷。通过提供均衡的双向语料、长句结构和跨领域内容,该数据集使研究者能够更准确地评估模型对阿拉伯语复杂形态学的处理能力,以及在不同专业领域的翻译鲁棒性。其人工校验机制还消除了自动生成数据中的幻觉问题,为低资源语言对的质量评估树立了新标准。
衍生相关工作
以Tarjama-25为基础衍生了多个重要研究方向:KACST团队开发了面向海湾方言的适配器模块,扩展了基准的方言覆盖能力;NYU Abu Dhabi提出的动态领域适应框架DynaMT,利用该数据集的领域标签实现了跨领域知识迁移。此外,数据集还催生了AraEval评测体系,成为首个针对阿拉伯语机器翻译的完整评估协议,包含文化专有项识别等创新指标。
以上内容由遇见数据集搜集并总结生成



