Sinhala Physical Common Sense Reasoning Dataset
收藏arXiv2026-02-02 更新2026-02-05 收录
下载链接:
https://dataloop.ai/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是首个僧伽罗语物理常识推理数据集,由莫拉图瓦大学和梅西大学联合创建,旨在解决低资源语言僧伽罗语在自然语言处理中的研究瓶颈。数据集包含110条人工创建并验证的样本,每条样本包含提示、正确答案和错误答案,内容涵盖佛教、文学、神话、体育、食品等多个领域。数据创建过程严格遵循Global PIQA标准,由两位长期生活在斯里兰卡的僧伽罗语专家手工编写。该数据集主要用于评估语言模型在跨文化物理常识推理任务中的表现,特别关注斯里兰卡本土文化语境下的语言理解能力。
This dataset is the first Sinhala physical commonsense reasoning dataset, jointly developed by the University of Moratuwa and Massey University. It is designed to address the research bottlenecks faced by Sinhala, a low-resource language, in natural language processing (NLP) research. The dataset consists of 110 manually created and validated samples, each containing a prompt, a correct answer, and an incorrect answer. The samples cover diverse domains including Buddhism, literature, mythology, sports, food, and more. The entire dataset creation process strictly adheres to the Global PIQA standards, and was manually written by two Sinhala language experts who have long resided in Sri Lanka. This dataset is primarily intended to evaluate the performance of language models on cross-cultural physical commonsense reasoning tasks, with a special focus on language comprehension abilities within the context of Sri Lankan native culture.
提供机构:
莫拉图瓦大学·计算机科学与工程系; 梅西大学·数学与计算机科学学院
创建时间:
2026-02-02
搜集汇总
数据集介绍

构建方式
在低资源语言计算研究的背景下,僧伽罗语物理常识推理数据集的构建遵循了严谨的人工创建与验证流程。该数据集由两位在斯里兰卡生活超过三十年的僧伽罗语母语研究者精心编制,他们均具备深厚的自然语言处理研究背景。为确保数据质量,每位创建者独立生成至少50个样本,并由另一位研究者进行交叉验证。所有问题均为原创设计,未从现有数据集翻译而来,并严格遵循Global PIQA的格式规范。错误答案的生成采用了三种策略:改变单词中的一个字母、替换句子中的1-3个词汇,或调换句子中的短语顺序,以此构建具有细微差异的干扰选项。
特点
该数据集的核心特点在于其文化特定性与语言稀缺性的结合。作为首个僧伽罗语物理常识推理数据集,它包含了110个经过人工验证的样本,涵盖段落补全和问答对两种形式。内容深度植根于斯里兰卡的社会文化语境,涉及佛教仪式、历史典故、民间谚语、饮食习俗等独特领域,部分样本甚至体现了与印度次大陆其他地区相异的本地化概念。数据集在词汇分布上与通用领域僧伽罗语呈现弱相关性,这凸显了其在物理推理领域的专业性和文化特异性,为评估语言模型在低资源语言与文化背景下的常识推理能力提供了宝贵资源。
使用方法
该数据集主要用于评估语言模型在僧伽罗语及斯里兰卡文化背景下的物理常识推理能力。研究者可将其应用于多项选择问答任务的零样本或少样本测试,以检验模型对文化嵌入型常识的理解程度。典型的使用方法包括:使用如SinBERT等僧伽罗语预训练模型进行零样本预测,或利用GPT系列等多语言模型进行跨语言推理测试。在实验设计中,需特别注意模型可能因文化知识缺失或翻译误差导致的性能局限,并通过定性分析深入探究错误案例的文化根源。数据集还可作为Global PIQA多语言基准的一部分,用于比较不同语言模型在跨文化常识推理任务上的泛化能力。
背景与挑战
背景概述
僧伽罗物理常识推理数据集作为Global PIQA项目的一部分,由莫拉图瓦大学的Nisansa de Silva与梅西大学的Surangika Ranathunga于2026年共同创建,旨在填补僧伽罗语作为低资源语言在自然语言处理领域的空白。该数据集聚焦于物理常识推理任务,包含110个人工创建并验证的样本,涵盖佛教、文学、神话、体育游戏、食物、农业渔业、谚语、历史等多个领域,尤其强调斯里兰卡文化背景下的常识理解。其核心研究问题在于评估和提升语言模型对僧伽罗语及其独特文化语境的理解能力,为全球多语言人工智能研究提供了关键资源,推动了低资源语言计算语言学的发展。
当前挑战
该数据集致力于解决物理常识推理在低资源语言中的挑战,特别是僧伽罗语因其数字资源稀缺和文化独特性所面临的建模困难。构建过程中的主要挑战包括:首先,僧伽罗语作为孤立语言缺乏大规模标注数据,需依赖人工创建而非翻译,确保样本的文化准确性和语言自然性;其次,数据样本需平衡通用常识与斯里兰卡特定文化元素,如佛教仪式或本土游戏,这对创建者的文化素养提出了较高要求;此外,数据规模有限仅110个样本,限制了模型训练的泛化能力,且样本中可能存在拼写错误,而僧伽罗语拼写校正工具尚未成熟,进一步增加了数据质量控制的难度。
常用场景
经典使用场景
在低资源语言的自然语言处理研究中,僧伽罗语物理常识推理数据集为评估语言模型的文化适应性提供了关键基准。该数据集通过110个人工创建并验证的样本,模拟了斯里兰卡文化背景下的日常物理常识推理场景,例如如何去除头发上的虱子或防止蚊子叮咬。这些样本以段落补全和问答对两种形式呈现,要求模型在细微差异的选项中选择符合当地文化习惯的正确答案,从而测试模型对特定文化语境的理解能力。
解决学术问题
该数据集主要解决了低资源语言在自然语言处理中的代表性不足问题,特别是针对僧伽罗语这类印欧语系但数字资源匮乏的语言。通过构建文化特定的常识推理任务,它揭示了当前语言模型在跨文化语境下的局限性,例如SinBERT模型仅达到49.09%的准确率,表明模型对文化嵌入知识的理解存在显著缺陷。这项工作为量化语言模型的文化偏见提供了实证基础,推动了多语言NLP研究向更公平的资源分配方向发展。
衍生相关工作
该数据集作为Global PIQA项目的重要组成部分,启发了多语言常识推理研究的扩展。例如,后续研究通过对比SinBERT与GPT-5在文化特定样本上的表现,深入分析了翻译误差对模型推理的影响(如将“米饭包装袋”误译为“香蕉叶”)。这些工作进一步推动了如SinLLaMA等僧伽罗语大模型的开发,并为低资源语言的数据集构建方法论提供了范例,促进了跨文化NLP评估框架的完善。
以上内容由遇见数据集搜集并总结生成



