arbml/CIDAR-EVAL-100
收藏Hugging Face2024-02-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/arbml/CIDAR-EVAL-100
下载链接
链接失效反馈官方服务:
资源简介:
CIDAR-EVAL-100数据集包含100条关于阿拉伯文化的指令,用于评估大型语言模型(LLM)在文化相关性方面的表现。数据集的结构包括三个特征:Source(指令来源)、Sentence(指令句子)和Topic(指令主题)。数据集分为一个训练集,包含100个样本。数据集的语言为阿拉伯语,任务类别为文本生成,许可证为Apache-2.0。
CIDAR-EVAL-100数据集包含100条关于阿拉伯文化的指令,用于评估大型语言模型(LLM)在文化相关性方面的表现。数据集的结构包括三个特征:Source(指令来源)、Sentence(指令句子)和Topic(指令主题)。数据集分为一个训练集,包含100个样本。数据集的语言为阿拉伯语,任务类别为文本生成,许可证为Apache-2.0。
提供机构:
arbml
原始信息汇总
CIDAR-EVAL-100 数据集概述
数据集信息
- 特征:
Source(字符串): 指令来源。Sentence(字符串): 指令句子。Topic(字符串): 指令涵盖的主题。
- 分割:
train:- 字节数: 10696
- 样本数: 100
- 下载大小: 6725 字节
- 数据集大小: 10696 字节
- 配置:
default:- 数据文件:
train:data/train-*
- 数据文件:
- 许可: Apache-2.0
- 任务类别: 文本生成
- 语言: 阿拉伯语
- 友好名称: CIDAR-EVAL-100
- 大小类别: n<1K
数据集结构
Source(字符串): 指令来源。Sentence(字符串): 指令句子。Topic(字符串): 指令涵盖的主题。
数据集加载
python from datasets import load_dataset cidar = load_dataset(arbml/CIDAR-EVAL-100)
数据集示例
- Source: Manual
- Sentence: أخبرني عن أشهر أربعة حيوانات في المنطقة
- Topic: Animals
许可
该数据集在 Apache-2.0 许可下发布。
引用
@misc{alyafeai2024cidar, title={{CIDAR: Culturally Relevant Instruction Dataset For Arabic}}, author={Zaid Alyafeai and Khalid Almubarak and Ahmed Ashraf and Deema Alnuhait and Saied Alshahrani and Gubran A. Q. Abdulrahman and Gamil Ahmed and Qais Gawah and Zead Saleh and Mustafa Ghaleb and Yousef Ali and Maged S. Al-Shaibani}, year={2024}, eprint={2402.03177}, archivePrefix={arXiv}, primaryClass={cs.CL} }



