kalahi

Name: kalahi
Creator: AI Singapore
Published: 2024-10-21 16:35:58
License: 暂无描述

Hugging Face2024-10-21 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/aisingapore/kalahi

下载链接

链接失效反馈

官方服务：

资源简介：

Kalahi数据集是一个高质量、手工制作的文化数据集，属于SEA-HELM项目的一部分。它由菲律宾本土演讲者共同创建，旨在评估大型语言模型（LLMs）在处理菲律宾人日常生活中遇到的文化特定情境时的响应能力。数据集包含150个情境丰富的提示和相关的文化响应，涵盖了菲律宾共享的文化知识和价值观。主题包括美与服饰、信仰与实践、职业与生计、沟通与肢体语言、约会与求爱、家庭与婚姻、食物与聚会、友谊、健康与福祉、本地知识和社会礼仪。数据集的局限性在于，它主要反映了在马尼拉大都会出生和成长或至少在那里度过大部分生活的菲律宾人的文化价值观，可能无法完全代表所有菲律宾人的观点。

提供机构：

AI Singapore

创建时间：

2024-10-20

原始信息汇总

Kalahi 数据集概述

数据集简介

Kalahi 是一个高质量、手工制作的文化数据集，属于 SEA-HELM 项目的一部分。该数据集由菲律宾本土语言使用者共同创建，旨在评估大型语言模型（LLMs）在处理菲律宾文化特定情境下的相关响应能力。

数据集详情

Kalahi 包含 150 个情境丰富的提示和与文化相关的正反两方面响应，涵盖了菲律宾共享的文化知识和价值观。具体文化主题及其对应的提示数量如下：

文化主题	提示数量
美与服饰	16
信仰与实践	4
职业与生计	20
沟通与肢体语言	5
约会与求爱	6
家庭与婚姻	16
食物与聚会	18
友谊	7
健康与福祉	13
本地知识	19
社交礼仪	26

数据集限制

Kalahi 数据集基于在马尼拉大都会出生并成长或至少在那里度过大部分生活的菲律宾本土语言使用者的共识观点。不同成长背景的个体可能对菲律宾文化有不同的看法，因此该数据集的共识观点并不完全代表所有菲律宾个体的意见。此外，尽管 Kalahi 旨在准确代表菲律宾文化，但它并不旨在涵盖菲律宾文化的所有可能方面。

许可证

该数据集根据 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证发布。

参考文献

bibtex @misc{montalan2024kalahihandcraftedgrassrootscultural, title={Kalahi: A handcrafted, grassroots cultural LLM evaluation suite for Filipino}, author={Jann Railey Montalan and Jian Gang Ngui and Wei Qi Leong and Yosephine Susanto and Hamsawardhini Rengarajan and William Chandra Tjhi and Alham Fikri Aji}, year={2024}, eprint={2409.15380}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2409.15380}, }

搜集汇总

数据集介绍

构建方式

Kalahi数据集由菲律宾本土语言使用者共同构建，旨在评估大型语言模型在处理菲律宾日常文化情境中的表现。该数据集包含150个情境丰富的提示，涵盖了菲律宾文化中的多个主题，如家庭与婚姻、社交礼仪、饮食与聚会等。每个提示均配有文化相关和不相关的回答，以确保数据集的多样性和深度。构建过程中，参与者基于在马尼拉大都会的生活经验，形成了对菲律宾文化的共识视角。

特点

Kalahi数据集的特点在于其专注于菲律宾文化的多样性和深度，涵盖了11个文化主题，如家庭与婚姻、社交礼仪、饮食与聚会等。每个主题下均包含多个情境提示，确保了数据集的广泛覆盖。此外，数据集中的提示和回答均经过精心设计，既包含文化相关的内容，也包含文化不相关的内容，以全面评估模型的文化理解能力。尽管数据集主要反映了马尼拉大都会的文化视角，但其设计仍为研究菲律宾文化提供了宝贵的资源。

使用方法

Kalahi数据集可用于评估大型语言模型在菲律宾文化情境中的表现。研究者可以通过分析模型对文化相关和不相关提示的回答，评估其对菲律宾文化的理解能力。数据集中的提示涵盖了多个文化主题，研究者可根据具体研究需求选择相应的主题进行分析。此外，数据集还可用于跨文化研究，通过比较不同文化背景下的模型表现，探讨文化差异对模型理解能力的影响。

背景与挑战

背景概述

Kalahi数据集是SEA-HELM项目的一部分，由菲律宾本土语言使用者共同创建，旨在评估大型语言模型在处理菲律宾日常文化情境中的表现。该数据集于2024年发布，由Jann Railey Montalan等研究人员主导，涵盖了菲律宾文化中的多个主题，如家庭与婚姻、社交礼仪、饮食与聚会等。Kalahi的构建基于菲律宾本土文化的共识视角，尤其是马尼拉大都会地区的文化背景，为研究语言模型在文化特定情境下的表现提供了重要参考。

当前挑战

Kalahi数据集在构建和应用过程中面临多重挑战。首先，菲律宾文化具有多样性和地域性，而Kalahi主要基于马尼拉大都会地区的文化视角，可能无法全面代表菲律宾其他地区的文化差异。其次，数据集的文化主题虽然广泛，但并未涵盖菲律宾文化的所有方面，限制了其应用的全面性。此外，数据集的构建依赖于本土使用者的共识，不同背景的个体可能对文化情境的理解存在差异，这可能导致数据集在文化代表性上的局限性。这些挑战为未来研究提供了改进和扩展的方向。

常用场景

经典使用场景

Kalahi数据集在自然语言处理领域中被广泛用于评估大型语言模型（LLMs）在文化特定情境下的表现。通过包含150个情境丰富的提示和与文化相关或不相关的回答，该数据集能够测试模型在菲律宾日常生活中的文化敏感性和理解能力。研究人员利用Kalahi来验证模型是否能够生成符合菲律宾文化背景的响应，从而提升模型在跨文化对话中的适用性。

衍生相关工作

Kalahi数据集的发布催生了一系列关于文化敏感性和跨文化对话系统的研究。基于该数据集，研究人员开发了多种评估框架和模型优化方法，以提升模型在多元文化环境中的表现。此外，Kalahi还启发了其他文化特定数据集的创建，推动了自然语言处理技术在全球化背景下的进一步发展。

数据集最近研究