arbml/CIDAR
收藏数据集卡片 for "CIDAR"
🌴CIDAR: Culturally Relevant Instruction Dataset For Arabic
CIDAR 包含 10,000 条 instructions 及其 output。该数据集通过从 Alpagasus 数据集中选取约 9,109 个样本,并使用 ChatGPT 将其翻译成 Arabic,以及从网站 Ask the teacher 中添加约 891 个阿拉伯语语法指令创建而成。所有 10,000 个样本均由约 12 名审阅者进行了审查。
📚 数据集概要
<table> <tr> <th>名称</th> <th>说明</th> </tr> <tr> <td>CIDAR</td> <td>10,000 条阿拉伯语指令及响应</td> </tr> <tr> <td>CIDAR-EVAL-100</td> <td>100 条指令用于评估 LLMs 的文化相关性</td> </tr> <tr> <td>CIDAR-MCQ-100</td> <td>100 道多选题及答案用于评估 LLMs 的文化相关性</td> </tr> </table>
📋 数据集结构
index(int): 每个指令-输出对的唯一编号。instruction(str): 所需的指令。output(str): 给定指令的响应。
📁 加载数据集
您可以直接从 HuggingFace 下载数据集,或使用以下代码:
python from datasets import load_dataset cidar = load_dataset(arbml/CIDAR)
📄 数据集样本:
此样本展示了一个与 البلاغة(rhetoric) 和 الإعراب(grammatical status) 相关的阿拉伯语特定指令。该句子最初是阿拉伯语。
index: 10030
instruction: لو سمحت اين صيغة المبالغة في " الجاحظ اديب سيارة اراؤه" و ما اعراب الجملة؟
output:
صيغة المبالغة في هذه الجملة هي "سيّارة"، فاسم الفاعل من "السير" هو
"سائر/ سائرة" وإذا أردت الدلالة على المبالغة في سير الآراء (أي
شهرتها وكثرة تداولها) قلت "آراء سيّارة".
أما إعراب الجملة فهو: "الجاحظُ": مبتدأ مرفوع بالضمة. "أديبٌ": خبر
مرفوع بالضمة. "سيارةٌ": خبر متقدم، و"آراؤُه": مبتدأ متأخر، وهو
مضاف والهاء ضمير متصل مضاف إليه في محل جر. ويمكن اعتبار "سيارة"
مبتدأ وهو وصف يعمل عمل فعله، و"آراؤُه" فاعل سدّ مسدّ الخبر.
وفي الحالتين فجملة "سيارة آراؤه" جملة اسمية في محل رفع نعت
لـ"أديب".
🧩 贡献者
CIDAR 的标注工作至少有 12 名贡献者参与。您可以在此处查看名单 here。
⛔️ 限制与未来工作
CIDAR 仅用于 研究 目的。作者不承担任何滥用责任,并谴责任何违反 阿拉伯文化 或 伊斯兰价值观 的使用。尽管经过了人工验证,但不能保证响应完全符合阿拉伯文化和伊斯兰价值观。数据集用户应谨慎行事,运用批判性思维,并在必要时寻求代表性人物的指导。
🔑 许可证
CIDAR 仅用于 研究 目的,并根据 CC BY NC 4.0(仅限非商业用途)许可。使用该数据集训练的模型不应用于研究以外的目的。 Creative Commons NonCommercial (CC BY-NC 4.0)。
引用
@misc{alyafeai2024cidar, title={{CIDAR: Culturally Relevant Instruction Dataset For Arabic}}, author={Zaid Alyafeai and Khalid Almubarak and Ahmed Ashraf and Deema Alnuhait and Saied Alshahrani and Gubran A. Q. Abdulrahman and Gamil Ahmed and Qais Gawah and Zead Saleh and Mustafa Ghaleb and Yousef Ali and Maged S. Al-Shaibani}, year={2024}, eprint={2402.03177}, archivePrefix={arXiv}, primaryClass={cs.CL} }




