BasPhyCo

Name: BasPhyCo
Creator: 巴斯克大学·UPV/EHU·HiTZ中心·Ixa
Published: 2026-02-16 23:04:35
License: 暂无描述

arXiv2026-02-16 更新2026-02-18 收录

下载链接：

https://anonymous.4open.science/r/BasPhyCo-BBC9/README.md

下载链接

链接失效反馈

官方服务：

资源简介：

BasPhyCo是由巴斯克大学团队开发的物理常识推理数据集，包含356个五句子故事（117个合理/239个不合理），涵盖标准巴斯克语和西方方言双版本。数据源自意大利语GITA数据集的专业翻译与本地化改造，通过人工翻译和Latxa-3.1-Instruct模型自动生成方言变体。该数据集聚焦日常物理场景的叙事合理性判断，支持模型在低资源语言环境下进行三层级推理评估（合理性分类、冲突检测、物理状态验证），为研究多语言模型在方言场景下的物理常识理解能力提供基准。

BasPhyCo is a physical commonsense reasoning dataset developed by the research team at the University of the Basque Country. It comprises 356 five-sentence stories (117 reasonable, 239 unreasonable), with two variants: standard Basque and Western Basque dialect. Derived from the Italian GITA dataset via professional translation and localization adaptation, its dialect variants were generated through human translation and automatic synthesis using the Latxa-3.1-Instruct model. Focused on narrative plausibility judgment in daily physical scenarios, this dataset supports three-tier reasoning evaluation for models in low-resource language settings, namely plausibility classification, conflict detection, and physical state verification. It serves as a benchmark for investigating the physical commonsense understanding capabilities of multilingual models in dialect-based scenarios.

提供机构：

巴斯克大学·UPV/EHU·HiTZ中心·Ixa

创建时间：

2026-02-16

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，物理常识推理作为评估模型对现实世界理解能力的重要维度，其数据资源在低资源语言中尤为稀缺。BasPhyCo数据集的构建以意大利语物理常识推理数据集GITA为基础，通过专业语言学家的手动翻译与本地化过程，将356个五句叙事故事转化为标准巴斯克语版本。翻译过程中特别注重文化元素的适应性调整，包括专有名词和本地化参照物的转换，以确保叙事内容符合巴斯克文化语境。随后，研究团队采用基于Latxa-3.1-Instruct模型的少样本提示策略，将标准版本自动转换为西部方言变体，这一过程特别关注词汇、形态句法特征的系统性转换，最终通过母语语言学家的手动验证确保方言转换的准确性与一致性。

特点

该数据集在低资源语言处理领域展现出鲜明的特色。作为首个面向巴斯克语的非问答式物理常识推理数据集，它同时提供标准语与西部方言两种变体，为研究语言变异对模型推理能力的影响提供了独特视角。数据集采用层级化任务设计，涵盖从叙事合理性判断、冲突句子识别到具体物理状态分类的三级推理评估，这种渐进式结构能够精细刻画模型在不同认知深度上的表现。特别值得注意的是，数据集中包含通过句子顺序调换和关键词替换两种机制构造的不可信叙事，这种双重构造机制为探究模型对不同类型的逻辑不一致性的敏感度提供了实验基础。

使用方法

在模型评估实践中，该数据集支持多层次的系统性评测框架。研究者可基于EleutherAI的Language Model Evaluation Harness框架，采用少样本设置对生成式大语言模型进行三级任务评估：第一级通过准确率指标评估模型区分可信与不可信叙事的能力；第二级以一致性指标衡量模型识别叙事中冲突句对的性能；第三级则通过可验证性指标考察模型对导致叙事不可信的特定物理状态的判断能力。这种层级化评估方式要求模型在通过前一级任务的基础上才能进入下一级评估，从而形成递进式的推理能力检验。数据集特别适用于对比研究多语言模型与针对巴斯克语预训练的专用模型在处理标准语和方言变体时的性能差异，为低资源语言环境下物理常识推理能力的研究提供了标准化测试基准。

背景与挑战

背景概述

物理常识推理作为人类智能的核心能力，在自然语言处理领域日益受到重视，然而现有研究多集中于英语等高资源语言。针对巴斯克语等低资源语言，相关数据集与评估体系长期匮乏。在此背景下，巴斯克大学UPV/EHU的HiTZ中心研究人员Jaione Bengoetxea、Itziar Gonzalez-Dios与Rodrigo Agerri于2026年创建了BasPhyCo数据集。该数据集以意大利语GITA为基础，通过人工翻译与本地化构建了巴斯克语标准变体，并利用大语言模型自动生成了西部方言变体，旨在系统评估大语言模型在低资源语言环境下对非问答式物理常识推理任务的性能。BasPhyCo的推出填补了巴斯克语物理常识推理数据资源的空白，为多语言与方言语境下的认知计算研究提供了重要基准。

当前挑战

BasPhyCo数据集所针对的领域挑战在于，大语言模型在低资源语言中展现的物理常识推理能力显著受限，尤其在需要验证具体物理状态的深层推理任务上表现薄弱。模型对句子顺序调换导致的叙事不合理性识别困难，且在位置、可食用性、意识状态等细粒度物理范畴的预测准确率低下。数据构建过程中的挑战则体现在方言变体的自动生成上，尽管采用少样本提示策略，模型仍会产生词汇幻觉与形态句法偏差，例如生成非方言词汇或错误的格标记与动词一致关系，这要求后续人工校验以保障语言变体的真实性与一致性。

常用场景

经典使用场景

在自然语言处理领域，物理常识推理任务旨在评估模型对现实世界物理规律的理解能力。BasPhyCo数据集作为巴斯克语及其方言的首个非问答式物理常识推理资源，其经典使用场景集中于对大型语言模型在低资源语言环境下推理能力的系统性评测。研究者通过该数据集构建的三层递进式任务——故事分类、冲突检测与物理状态分类，能够深入剖析模型在区分叙事合理性、识别矛盾元素及验证物理状态变化等核心环节的表现，从而揭示模型在跨语言与跨方言情境下的物理常识掌握程度。

实际应用

在实际应用层面，BasPhyCo数据集为开发面向低资源语言与方言的智能系统提供了关键评估工具。例如，在构建巴斯克语教育辅助系统或方言保护技术时，该数据集可用于测试系统对物理事件逻辑连贯性的判断能力，确保生成内容符合现实世界的物理规律。同时，它在跨语言机器人指令理解、多方言交互界面设计等领域也具有潜在价值，能够帮助工程师检测并改善系统在复杂物理场景下的推理可靠性，从而提升技术在多样化语言社区中的实用性与包容性。

衍生相关工作

BasPhyCo的构建灵感源于意大利语数据集GITA，而GITA本身又衍生于英语物理常识推理基准TRIP，这一脉络体现了跨语言常识推理研究的延续与拓展。围绕该数据集，相关经典工作包括对多语言模型如Llama-3.1与Gemma-2的对比评测，以及针对巴斯克语预训练模型Latxa的专项分析。这些研究不仅验证了模型在低资源语言上的性能局限，还催生了关于方言适应性、文化本地化以及细粒度物理状态分类的后续探讨，为低资源语言NLP领域的评测框架设计与模型优化提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集