five

BasPhyCo

收藏
Hugging Face2026-03-25 更新2026-03-26 收录
下载链接:
https://huggingface.co/datasets/HiTZ/BasPhyCo
下载链接
链接失效反馈
官方服务:
资源简介:
BasPhyCo 是第一个针对巴斯克语的物理常识推理非问答数据集,包含标准巴斯克语和西部方言两种变体。该数据集源自意大利语 GITA 数据集,通过专业语言学家手动翻译并考虑文化适应后得到标准巴斯克语版本,随后自动转换为西部方言版本。数据集旨在评估大型语言模型在低资源语言(如巴斯克语)中的物理常识推理能力,涵盖三个层次的常识理解任务:(1) 区分合理与不合理叙述(准确性),(2) 识别导致叙述不合理的冲突元素(一致性),(3) 确定造成不合理的具体物理状态(可验证性)。评估结果表明,在处理巴斯克语等低资源语言时,大型语言模型在可验证性方面的物理常识能力有限,尤其是在处理方言变体时。数据集包含两个版本:标准巴斯克语和西部巴斯克语,分别存储在 basphyco.jsonl 和 basphyco-western.jsonl 文件中。
提供机构:
HiTZ zentroa
创建时间:
2026-03-25
原始信息汇总

BasPhyCo 数据集概述

数据集基本信息

  • 名称: BasPhyCo
  • 许可证: CC BY-NC 4.0
  • 主要语言: 巴斯克语 (eu)
  • 标签: Variation
  • 配置:
    • eu: 数据文件路径为 data/basphyco.jsonl
    • eu_west: 数据文件路径为 data/basphyco-western.jsonl

数据集描述

BasPhyCo 是首个面向巴斯克语的非问答式物理常识推理数据集,包含标准巴斯克语和方言变体。该数据集旨在评估大型语言模型在低资源语言(巴斯克语)中处理物理常识推理任务的能力,研究涵盖三个层次的理解:区分合理与不合理叙述的准确性、识别导致不合理叙述的冲突元素的一致性,以及确定造成不合理性的具体物理状态的可验证性。

数据构成

  • 标准巴斯克语数据: 由专业语言学家从意大利语数据集手动翻译并进行了文化适应,数据文件为 basphyco.jsonl
  • 西部巴斯克语方言数据: 通过自动适配从标准巴斯克语数据集转换而来,数据文件为 basphyco-western.jsonl

相关论文

该数据集的创建和实验在论文《Physical Commonsense Reasoning for Lower-Resourced Languages and Dialects: a Study on Basque》中进行了详细阐述,论文可访问 https://arxiv.org/abs/2602.14812。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作