arbml/CIDAR-EVAL-100

Name: arbml/CIDAR-EVAL-100
Creator: arbml
Published: 2024-02-14 15:46:10
License: 暂无描述

Hugging Face2024-02-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/arbml/CIDAR-EVAL-100

下载链接

链接失效反馈

官方服务：

资源简介：

CIDAR-EVAL-100数据集包含100条关于阿拉伯文化的指令，用于评估大型语言模型（LLM）在文化相关性方面的表现。数据集的结构包括三个特征：Source（指令来源）、Sentence（指令句子）和Topic（指令主题）。数据集分为一个训练集，包含100个样本。数据集的语言为阿拉伯语，任务类别为文本生成，许可证为Apache-2.0。

提供机构：

arbml

原始信息汇总

CIDAR-EVAL-100 数据集概述

数据集信息

特征:
- Source (字符串): 指令来源。
- Sentence (字符串): 指令句子。
- Topic (字符串): 指令涵盖的主题。
分割:
- train:
  - 字节数: 10696
  - 样本数: 100
下载大小: 6725 字节
数据集大小: 10696 字节
配置:
- default:
  - 数据文件:
    - train: data/train-*
许可: Apache-2.0
任务类别: 文本生成
语言: 阿拉伯语
友好名称: CIDAR-EVAL-100
大小类别: n<1K

数据集结构

Source (字符串): 指令来源。
Sentence (字符串): 指令句子。
Topic (字符串): 指令涵盖的主题。

数据集加载

python from datasets import load_dataset cidar = load_dataset(arbml/CIDAR-EVAL-100)

数据集示例

Source: Manual
Sentence: أخبرني عن أشهر أربعة حيوانات في المنطقة
Topic: Animals

许可

该数据集在 Apache-2.0 许可下发布。

引用

@misc{alyafeai2024cidar, title={{CIDAR: Culturally Relevant Instruction Dataset For Arabic}}, author={Zaid Alyafeai and Khalid Almubarak and Ahmed Ashraf and Deema Alnuhait and Saied Alshahrani and Gubran A. Q. Abdulrahman and Gamil Ahmed and Qais Gawah and Zead Saleh and Mustafa Ghaleb and Yousef Ali and Maged S. Al-Shaibani}, year={2024}, eprint={2402.03177}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集