arbml/AraBench_dev

Name: arbml/AraBench_dev
Creator: arbml
Published: 2024-07-23 14:02:49
License: 暂无描述

Hugging Face2024-07-23 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/arbml/AraBench_dev

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含阿拉伯语和英语的文本对，每个文本对都有一个标签，表示文本的来源地（如摩洛哥、MSA、突尼斯、卡塔尔、埃及、黎巴嫩）。数据集仅包含验证集，共有42,113个样本，文件大小为5,185,593字节。

This dataset contains pairs of Arabic and English texts, with each pair having a label indicating the origin of the text (e.g., Morrocan, MSA, Tunisian, Qatari, Egyptian, Lebanese). The dataset only includes a validation split, with a total of 42,113 examples and a file size of 5,185,593 bytes.

提供机构：

arbml

原始信息汇总

数据集卡片

数据集描述

数据集概述

数据集名称: [待补充]
主页: [待补充]
仓库: [待补充]
论文: [待补充]
排行榜: [待补充]
联系人: [待补充]

支持的任务和排行榜

[待补充]

语言

[待补充]

数据集结构

数据实例

[待补充]

数据字段

arabic: 字符串类型
english: 字符串类型
label: 类别标签
- 类别名称:
  - 0: Morrocan
  - 1: MSA
  - 2: Tunisian
  - 3: Qatari
  - 4: Egyptian
  - 5: Lebanese

数据分割

validation:
- 字节数: 5185593
- 样本数: 42113

数据集创建

策划理由

[待补充]

源数据

初始数据收集和规范化

[待补充]

源语言生产者

[待补充]

注释

注释过程

[待补充]

注释者

[待补充]

个人和敏感信息

[待补充]

使用数据的注意事项

数据集的社会影响

[待补充]

偏见的讨论

[待补充]

其他已知限制

[待补充]

附加信息

数据集策展人

[待补充]

许可信息

[待补充]

引用信息

[待补充]

贡献

感谢 @github-username 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集