five

Tarjama-25|机器翻译数据集|自然语言处理数据集

收藏
arXiv2025-05-23 更新2025-05-27 收录
机器翻译
自然语言处理
下载链接:
https://huggingface.co/datasets/Misraj/Tarjama-25
下载链接
链接失效反馈
资源简介:
Tarjama-25是一个为双向阿拉伯语-英语翻译任务设计的基准数据集。它由5000对经过专家审查的句子对组成,涵盖了广泛的领域,如科学、技术、医疗保健、文化、法律、宗教和科技等。数据集旨在解决现有阿拉伯语-英语数据集的局限性,如领域狭窄、句子长度短、英语源偏见等问题。Tarjama-25旨在提供一个更全面、更平衡的评估框架,以促进阿拉伯语-英语翻译系统的评估和研究。
提供机构:
沙特阿拉伯的Misraj AI公司
创建时间:
2025-05-23
原始信息汇总

Tarjama-25 数据集概述

数据集简介

Tarjama-25 是一个高质量的阿拉伯语 ↔ 英语双向机器翻译基准数据集,专为测试现代机器翻译模型而设计。该数据集包含长句,且句子在阿拉伯语和英语中均有一半原始内容,经过专业翻译和双向验证。

关键特性

  • 句子对数:5000
  • 平均句子长度:50 – 100 个词(约75)
  • 覆盖领域:科学、技术、医疗、文化、通用

数据集结构

  • 字段
    • Arabic:阿拉伯语句子(string)
    • English:英语句子(string)
    • category:类别(string),包括通用、新闻、伊斯兰、医疗、化学和物理
    • source:来源(string),标记为 "en-to-ar""ar-to-en"

数据集统计

  • 训练集
    • 样本数:5081
    • 大小:7119057 字节
  • 下载大小:3810341 字节
  • 数据集总大小:7119057 字节

使用方式

python from datasets import load_dataset

ds = load_dataset("Misraj/Tarjama-25")

评估结果

阿拉伯语 → 英语

  • 表现最佳模型
    • Mutarjim(1.5 B):BLEU 55.28
    • GPT-4o mini:COMET 83.67, ChrF++ 76.08

英语 → 阿拉伯语

  • 表现最佳模型
    • Mutarjim(1.5 B):COMET 83.41, ChrF++ 68.67, BLEU 43.71

引用

latex @misc{hennara2025mutarjimadvancingbidirectionalarabicenglish, title={Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model}, author={Khalil Hennara and Muhammad Hreden and Mohamed Motaism Hamed and Zeina Aldallal and Sara Chrouf and Safwan AlModhayan}, year={2025}, eprint={2505.17894}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.17894}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Tarjama-25数据集的构建过程体现了严谨的学术态度与多阶段验证机制。研究团队从30,000句阿拉伯语和英语原始语句出发,通过专业翻译团队的双向转译构建初始平行语料,最终精选5,000组句子对进行专家级人工校验。该过程特别注重领域平衡性,覆盖科技、医疗、法律等多元场景,并严格控制句子长度在50-100词范围内以增强语言模型的长文本处理能力。为确保文化适应性,数据集严格保持阿拉伯语与英语源文本1:1的比例,有效解决了传统双语数据集中存在的英语中心主义偏差问题。
特点
作为阿拉伯语-英语机器翻译领域的新型基准,Tarjama-25展现出三大核心特征:其领域覆盖广度突破传统局限,包含宗教典籍与地方法规等专业文本;双向平行语料设计通过源语言平衡策略,为模型双向翻译能力评估提供科学依据;专家级人工校验机制确保每个句子对达到出版级语言质量,其中医学与法律文本还经过领域专家二次验证。特别值得注意的是,该数据集通过排除网络爬取内容,有效规避了大语言模型预训练数据污染问题,为公平评估提供了纯净测试环境。
使用方法
该数据集作为评估基准使用时,研究者可采用标准机器翻译指标(BLEU/chrF++/COMET)进行系统性能测量。对于模型开发阶段,建议将数据按7:1:2比例划分为训练集、验证集和测试集,其中测试集应保持领域分布均衡性以反映真实场景。在具体实施中,需注意阿拉伯语特有的形态学特征,建议配合专用分词工具处理变体形式。数据集提供的元数据标签支持领域适应性研究,开发者可通过领域子集分析模型在专业场景下的性能差异。为保障结果可比性,官方评测工具包推荐采用统一提示词模板进行解码生成。
背景与挑战
背景概述
Tarjama-25是由Misraj AI的研究团队于2025年推出的阿拉伯语-英语双向机器翻译基准数据集,旨在解决现有评测数据集的三大局限性:领域狭窄性、短句主导性以及英语源语偏见。该数据集包含5,000组经过专家审校的平行句对,覆盖医疗、法律、科技等多元领域,且阿拉伯语与英语源文本数量严格对等。作为论文《Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model》的核心贡献之一,该数据集通过平衡的语向分布和长句式设计(50-100词/句),为评估现代语言模型处理阿拉伯语复杂形态特征的能力提供了更真实的测试环境,显著提升了低资源语言机器翻译研究的评估信度。
当前挑战
在领域问题层面,Tarjama-25直面阿拉伯语机器翻译特有的三大挑战:1) 阿拉伯语丰富的词形变化和语法复杂性导致目标语生成准确度不足;2) 现有评测数据集普遍存在的英语源语偏见(English-source bias)使模型在阿译英方向表现显著优于英译阿;3) 短句主导的评估范式无法有效检验模型处理长距离依赖的能力。在构建过程中,研究团队需克服:1) 双语专家资源稀缺导致的标注成本激增;2) 专业领域(如伊斯兰教法文本)术语对齐的准确性保障;3) 消除预训练数据污染(contamination)对评估结果的干扰,这要求构建全新的原始语料而非复用现有平行语料库。
常用场景
经典使用场景
在阿拉伯语-英语双向机器翻译研究中,Tarjama-25数据集作为评估基准被广泛采用。该数据集包含5000个经过专家审校的句子对,覆盖医学、法律、科技等多个领域,且源语言在阿拉伯语和英语之间均衡分布。研究者在开发新型翻译模型时,常利用该数据集验证模型在长句处理、领域适应性和双向翻译能力等方面的表现,其较长的句子长度(50-100词)和严格的去污染处理使其成为评估模型真实性能的理想选择。
解决学术问题
Tarjama-25有效解决了阿拉伯语机器翻译领域三大核心问题:现有基准的英语源语言偏见、短句主导的评估局限性以及领域覆盖狭窄的缺陷。通过提供均衡的双向语料、长句结构和跨领域内容,该数据集使研究者能够更准确地评估模型对阿拉伯语复杂形态学的处理能力,以及在不同专业领域的翻译鲁棒性。其人工校验机制还消除了自动生成数据中的幻觉问题,为低资源语言对的质量评估树立了新标准。
衍生相关工作
以Tarjama-25为基础衍生了多个重要研究方向:KACST团队开发了面向海湾方言的适配器模块,扩展了基准的方言覆盖能力;NYU Abu Dhabi提出的动态领域适应框架DynaMT,利用该数据集的领域标签实现了跨领域知识迁移。此外,数据集还催生了AraEval评测体系,成为首个针对阿拉伯语机器翻译的完整评估协议,包含文化专有项识别等创新指标。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中文突发事件语料库

中文突发事件语料库是由上海大学(语义智能实验室)所构建,根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。

github 收录

EcoInvent

EcoInvent是一个生命周期评估(LCA)数据库,包含了大量产品的环境影响数据。它提供了详细的产品生命周期数据,包括原材料提取、生产、使用和废弃处理等各个阶段的环境影响信息。

www.ecoinvent.org 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

猫狗分类

## 数据集描述 ### 数据集简介 本数据集是简单的猫狗二分类数据集,共2个类别,其中训练集包含275张带注释的图像,验证集包含70张带注释的图像。整个数据集共10.3MB,可用于快速模型验证、性能评估、小数据集训练等。 ### 数据集支持的任务 可用于快速模型验证、性能评估、小数据集训练等。 ## 数据集的格式和结构 ### 数据格式 数据集包括训练集train和验证集val,train和val文件夹之下按文件夹进行分类,共有2个子文件夹,同类别标签的图片在同一个文件夹下,图片格式为JPG。同时包含与标注文件中label id相对应的类名文件classname.txt。 ### 数据集加载方式 ```python from modelscope.msdatasets import MsDataset from modelscope.utils.constant import DownloadMode ms_train_dataset = MsDataset.load( 'cats_and_dogs', namespace='tany0699', subset_name='default', split='train') # 加载训练集 print(next(iter(ms_train_dataset))) ms_val_dataset = MsDataset.load( 'cats_and_dogs', namespace='tany0699', subset_name='default', split='validation') # 加载验证集 print(next(iter(ms_val_dataset))) ``` ### 数据分片 本数据集包含train和val数据集。 | 子数据集 | train | val | test | |---------|-------------:|-----------:|---------:| | default | 训练集 | 验证集 | / | ### Clone with HTTP ```bash git clone https://www.modelscope.cn/datasets/tany0699/cats_and_dogs.git ```

魔搭社区 收录