five

arbml/CIDAR

收藏
Hugging Face2025-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/arbml/CIDAR
下载链接
链接失效反馈
官方服务:
资源简介:
CIDAR是一个包含10,000条阿拉伯语指令及其输出的数据集,用于研究目的。该数据集由Alpagasus数据集中的样本翻译而来,并补充了Ask the teacher网站的阿拉伯语法指令。

CIDAR is a dataset containing 10,000 Arabic instructions and their outputs, intended for research purposes. The dataset is created by translating samples from the Alpagasus dataset and supplementing them with Arabic grammar instructions from the Ask the teacher website.
提供机构:
arbml
原始信息汇总

数据集卡片 for "CIDAR"

🌴CIDAR: Culturally Relevant Instruction Dataset For Arabic

CIDAR 包含 10,000instructions 及其 output。该数据集通过从 Alpagasus 数据集中选取约 9,109 个样本,并使用 ChatGPT 将其翻译成 Arabic,以及从网站 Ask the teacher 中添加约 891 个阿拉伯语语法指令创建而成。所有 10,000 个样本均由约 12 名审阅者进行了审查。

📚 数据集概要

<table> <tr> <th>名称</th> <th>说明</th> </tr> <tr> <td>CIDAR</td> <td>10,000 条阿拉伯语指令及响应</td> </tr> <tr> <td>CIDAR-EVAL-100</td> <td>100 条指令用于评估 LLMs 的文化相关性</td> </tr> <tr> <td>CIDAR-MCQ-100</td> <td>100 道多选题及答案用于评估 LLMs 的文化相关性</td> </tr> </table>

📋 数据集结构

  • index(int): 每个指令-输出对的唯一编号。
  • instruction(str): 所需的指令。
  • output(str): 给定指令的响应。

📁 加载数据集

您可以直接从 HuggingFace 下载数据集,或使用以下代码:

python from datasets import load_dataset cidar = load_dataset(arbml/CIDAR)

📄 数据集样本:

此样本展示了一个与 البلاغة(rhetoric)الإعراب(grammatical status) 相关的阿拉伯语特定指令。该句子最初是阿拉伯语。

index: 10030

instruction: لو سمحت اين صيغة المبالغة في " الجاحظ اديب سيارة اراؤه" و ما اعراب الجملة؟

output:

       صيغة المبالغة في هذه الجملة هي "سيّارة"، فاسم الفاعل من "السير" هو 
       "سائر/ سائرة" وإذا أردت الدلالة على المبالغة في سير الآراء (أي 
       شهرتها وكثرة تداولها) قلت "آراء سيّارة".

       أما إعراب الجملة فهو: "الجاحظُ": مبتدأ مرفوع بالضمة. "أديبٌ": خبر 
       مرفوع بالضمة. "سيارةٌ": خبر متقدم، و"آراؤُه": مبتدأ متأخر، وهو 
       مضاف والهاء ضمير متصل مضاف إليه في محل جر.  ويمكن اعتبار "سيارة" 
       مبتدأ وهو وصف يعمل عمل فعله، و"آراؤُه" فاعل سدّ مسدّ الخبر.

       وفي الحالتين فجملة "سيارة آراؤه" جملة اسمية في محل رفع نعت 
       لـ"أديب".

🧩 贡献者

CIDAR 的标注工作至少有 12 名贡献者参与。您可以在此处查看名单 here

⛔️ 限制与未来工作

CIDAR 仅用于 研究 目的。作者不承担任何滥用责任,并谴责任何违反 阿拉伯文化伊斯兰价值观 的使用。尽管经过了人工验证,但不能保证响应完全符合阿拉伯文化和伊斯兰价值观。数据集用户应谨慎行事,运用批判性思维,并在必要时寻求代表性人物的指导。

🔑 许可证

CIDAR 仅用于 研究 目的,并根据 CC BY NC 4.0(仅限非商业用途)许可。使用该数据集训练的模型不应用于研究以外的目的。 Creative Commons NonCommercial (CC BY-NC 4.0)

引用

@misc{alyafeai2024cidar, title={{CIDAR: Culturally Relevant Instruction Dataset For Arabic}}, author={Zaid Alyafeai and Khalid Almubarak and Ahmed Ashraf and Deema Alnuhait and Saied Alshahrani and Gubran A. Q. Abdulrahman and Gamil Ahmed and Qais Gawah and Zead Saleh and Mustafa Ghaleb and Yousef Ali and Maged S. Al-Shaibani}, year={2024}, eprint={2402.03177}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作