arbml/AraBench_dev
收藏Hugging Face2024-07-23 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/arbml/AraBench_dev
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含阿拉伯语和英语的文本对,每个文本对都有一个标签,表示文本的来源地(如摩洛哥、MSA、突尼斯、卡塔尔、埃及、黎巴嫩)。数据集仅包含验证集,共有42,113个样本,文件大小为5,185,593字节。
This dataset contains pairs of Arabic and English texts, with each pair having a label indicating the origin of the text (e.g., Morrocan, MSA, Tunisian, Qatari, Egyptian, Lebanese). The dataset only includes a validation split, with a total of 42,113 examples and a file size of 5,185,593 bytes.
提供机构:
arbml
原始信息汇总
数据集卡片
数据集描述
数据集概述
- 数据集名称: [待补充]
- 主页: [待补充]
- 仓库: [待补充]
- 论文: [待补充]
- 排行榜: [待补充]
- 联系人: [待补充]
支持的任务和排行榜
[待补充]
语言
[待补充]
数据集结构
数据实例
[待补充]
数据字段
- arabic: 字符串类型
- english: 字符串类型
- label: 类别标签
- 类别名称:
- 0: Morrocan
- 1: MSA
- 2: Tunisian
- 3: Qatari
- 4: Egyptian
- 5: Lebanese
- 类别名称:
数据分割
- validation:
- 字节数: 5185593
- 样本数: 42113
数据集创建
策划理由
[待补充]
源数据
初始数据收集和规范化
[待补充]
源语言生产者
[待补充]
注释
注释过程
[待补充]
注释者
[待补充]
个人和敏感信息
[待补充]
使用数据的注意事项
数据集的社会影响
[待补充]
偏见的讨论
[待补充]
其他已知限制
[待补充]
附加信息
数据集策展人
[待补充]
许可信息
[待补充]
引用信息
[待补充]
贡献
感谢 @github-username 添加此数据集。



