kalahi
收藏Kalahi 数据集概述
数据集简介
Kalahi 是一个高质量、手工制作的文化数据集,属于 SEA-HELM 项目的一部分。该数据集由菲律宾本土语言使用者共同创建,旨在评估大型语言模型(LLMs)在处理菲律宾文化特定情境下的相关响应能力。
数据集详情
Kalahi 包含 150 个情境丰富的提示和与文化相关的正反两方面响应,涵盖了菲律宾共享的文化知识和价值观。具体文化主题及其对应的提示数量如下:
| 文化主题 | 提示数量 |
|---|---|
| 美与服饰 | 16 |
| 信仰与实践 | 4 |
| 职业与生计 | 20 |
| 沟通与肢体语言 | 5 |
| 约会与求爱 | 6 |
| 家庭与婚姻 | 16 |
| 食物与聚会 | 18 |
| 友谊 | 7 |
| 健康与福祉 | 13 |
| 本地知识 | 19 |
| 社交礼仪 | 26 |
数据集限制
Kalahi 数据集基于在马尼拉大都会出生并成长或至少在那里度过大部分生活的菲律宾本土语言使用者的共识观点。不同成长背景的个体可能对菲律宾文化有不同的看法,因此该数据集的共识观点并不完全代表所有菲律宾个体的意见。此外,尽管 Kalahi 旨在准确代表菲律宾文化,但它并不旨在涵盖菲律宾文化的所有可能方面。
许可证
该数据集根据 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证发布。
参考文献
bibtex @misc{montalan2024kalahihandcraftedgrassrootscultural, title={Kalahi: A handcrafted, grassroots cultural LLM evaluation suite for Filipino}, author={Jann Railey Montalan and Jian Gang Ngui and Wei Qi Leong and Yosephine Susanto and Hamsawardhini Rengarajan and William Chandra Tjhi and Alham Fikri Aji}, year={2024}, eprint={2409.15380}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2409.15380}, }




