Tarjama-25|机器翻译数据集|自然语言处理数据集
收藏Tarjama-25 数据集概述
数据集简介
Tarjama-25 是一个高质量的阿拉伯语 ↔ 英语双向机器翻译基准数据集,专为测试现代机器翻译模型而设计。该数据集包含长句,且句子在阿拉伯语和英语中均有一半原始内容,经过专业翻译和双向验证。
关键特性
- 句子对数:5000
- 平均句子长度:50 – 100 个词(约75)
- 覆盖领域:科学、技术、医疗、文化、通用
数据集结构
- 字段:
- Arabic:阿拉伯语句子(string)
- English:英语句子(string)
- category:类别(string),包括通用、新闻、伊斯兰、医疗、化学和物理
- source:来源(string),标记为- "en-to-ar"或- "ar-to-en"
 
数据集统计
- 训练集:
- 样本数:5081
- 大小:7119057 字节
 
- 下载大小:3810341 字节
- 数据集总大小:7119057 字节
使用方式
python from datasets import load_dataset
ds = load_dataset("Misraj/Tarjama-25")
评估结果
阿拉伯语 → 英语
- 表现最佳模型:
- Mutarjim(1.5 B):BLEU 55.28
- GPT-4o mini:COMET 83.67, ChrF++ 76.08
 
英语 → 阿拉伯语
- 表现最佳模型:
- Mutarjim(1.5 B):COMET 83.41, ChrF++ 68.67, BLEU 43.71
 
引用
latex @misc{hennara2025mutarjimadvancingbidirectionalarabicenglish, title={Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model}, author={Khalil Hennara and Muhammad Hreden and Mohamed Motaism Hamed and Zeina Aldallal and Sara Chrouf and Safwan AlModhayan}, year={2025}, eprint={2505.17894}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.17894}, }

中文突发事件语料库
中文突发事件语料库是由上海大学(语义智能实验室)所构建,根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。
github 收录
EcoInvent
EcoInvent是一个生命周期评估(LCA)数据库,包含了大量产品的环境影响数据。它提供了详细的产品生命周期数据,包括原材料提取、生产、使用和废弃处理等各个阶段的环境影响信息。
www.ecoinvent.org 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
猫狗分类
## 数据集描述 ### 数据集简介 本数据集是简单的猫狗二分类数据集,共2个类别,其中训练集包含275张带注释的图像,验证集包含70张带注释的图像。整个数据集共10.3MB,可用于快速模型验证、性能评估、小数据集训练等。 ### 数据集支持的任务 可用于快速模型验证、性能评估、小数据集训练等。 ## 数据集的格式和结构 ### 数据格式 数据集包括训练集train和验证集val,train和val文件夹之下按文件夹进行分类,共有2个子文件夹,同类别标签的图片在同一个文件夹下,图片格式为JPG。同时包含与标注文件中label id相对应的类名文件classname.txt。 ### 数据集加载方式 ```python from modelscope.msdatasets import MsDataset from modelscope.utils.constant import DownloadMode ms_train_dataset = MsDataset.load( 'cats_and_dogs', namespace='tany0699', subset_name='default', split='train') # 加载训练集 print(next(iter(ms_train_dataset))) ms_val_dataset = MsDataset.load( 'cats_and_dogs', namespace='tany0699', subset_name='default', split='validation') # 加载验证集 print(next(iter(ms_val_dataset))) ``` ### 数据分片 本数据集包含train和val数据集。 | 子数据集 | train | val | test | |---------|-------------:|-----------:|---------:| | default | 训练集 | 验证集 | / | ### Clone with HTTP ```bash git clone https://www.modelscope.cn/datasets/tany0699/cats_and_dogs.git ```
魔搭社区 收录
