EPiK (Everyday Physics in Korean Contexts)

Name: EPiK (Everyday Physics in Korean Contexts)
Creator: POSTECH 2MODULABS
Published: 2025-09-22 22:01:14
License: 暂无描述

arXiv2025-09-22 更新2025-11-21 收录

下载链接：

https://hf-mirror.com/datasets/jjae/EPiK

下载链接

链接失效反馈

官方服务：

资源简介：

EPiK数据集是一个文化根植的物理推理基准，包含181个二元选择问题，旨在测试在韩国文化背景下进行物理推理的能力。数据集涵盖了从泡菜到传统发酵等韩国日常生活中的物理问题。EPiK采用两阶段生成和验证流程，以确保问题的文化真实性和物理推理标准。数据集的创建旨在解决现有物理推理基准主要关注西方语境，而忽略了物理问题解决中的文化差异的问题。EPiK数据集通过在韩国语境中有机生成问题，同时保持严格的物理推理标准，克服了简单翻译方法的局限性。该数据集在评估物理常识推理方面，韩国专业化模型始终优于通用模型，突出了文化不可知模型的局限性，并证明了文化感知基准的必要性。EPiK数据集的发布，旨在促进文化感知推理研究的发展，推动更具包容性和全球竞争力的AI系统的开发。

The EPiK dataset is a culturally grounded physical reasoning benchmark containing 181 binary-choice questions, designed to test physical reasoning abilities within the context of Korean culture. The dataset covers physical problems arising in daily Korean life, ranging from kimchi to traditional fermentation. EPiK adopts a two-stage generation and validation pipeline to ensure the cultural authenticity and physical reasoning validity of the questions. The dataset was developed to address the issue that existing physical reasoning benchmarks primarily focus on Western contexts and overlook cultural differences in physical problem-solving. By organically generating questions within the Korean context while maintaining strict physical reasoning standards, the EPiK dataset overcomes the limitations of simplistic translation-based approaches. In evaluations of physical commonsense reasoning, specialized Korean models consistently outperform general-purpose models, highlighting the limitations of culture-agnostic models and demonstrating the necessity of culture-aware benchmarks. The release of the EPiK dataset aims to advance research in culture-aware reasoning and promote the development of more inclusive and globally competitive AI systems.

提供机构：

POSTECH 2MODULABS

创建时间：

2025-09-22

搜集汇总

数据集介绍

构建方式

在物理常识推理领域，现有基准主要聚焦西方语境，忽视了文化多样性对问题解决的影响。EPiK数据集通过两阶段生成与验证流程构建而成：首先基于84个韩国生活场景和9类推理任务生成问题与答案，随后采用交互式验证机制确保答案的物理正确性；第二阶段通过词汇微调生成具有物理区分度的干扰项，并经过重复数据删除和答案偏差过滤，最终通过人工专家评审筛选出181个高质量样本。

特点

该数据集以韩国文化场景为基石，深度融合传统元素与现代生活实践，如泡菜制作与地暖系统原理。其问题设计强调物理原理与文化语境的交织，通过莱文斯坦距离分析证实答案对间仅存在细微词汇差异，迫使模型依赖深层语义推理。每个样本标注文化依赖度评分，区分表面文化提及与本质性文化知识需求，为评估模型的文化感知能力提供多维度视角。

使用方法

研究者可将EPiK作为零样本评估基准，测试模型在韩国文化语境下的物理推理能力。使用时需加载标准化提示模板，输入问题及两个候选答案要求模型选择正解。该数据集支持对韩国专业化模型与通用模型的对比分析，通过性能差异揭示文化适应性的重要性。其结构化字段便于细粒度分析，如结合文化依赖度分数探究模型在不同文化深度问题上的表现规律。

背景与挑战

背景概述

在人工智能物理常识推理研究领域，现有基准多聚焦于西方文化语境，忽视了文化多样性对问题解决方式的影响。为填补这一空白，EPiK数据集于2025年由浦项科技大学研究团队正式发布，其核心目标在于构建一个植根于韩国日常文化场景的物理推理评估框架。该数据集通过两阶段生成验证流程，系统化地整合了泡菜制作、温突地暖等84类典型韩国生活情境，开创性地将文化特异性与物理原理深度融合，为跨文化人工智能研究提供了关键方法论支撑。

当前挑战

该数据集致力于解决跨文化物理推理中的核心挑战：通用模型在韩国文化语境下表现显著弱于本土优化模型，揭示了文化无感知评估体系的局限性。在构建过程中，研究团队面临双重技术难题：其一需确保生成内容既符合韩国传统器具使用逻辑（如温突加热原理），又保持严谨的物理定律约束；其二需通过最小编辑距离策略设计高迷惑性干扰项，避免模型通过表面特征而非深层推理进行判断，最终通过基于莱文斯坦距离的量化验证与多轮人工审核保障数据质量。

常用场景

衍生相关工作

EPiK数据集催生了一系列重要的衍生研究。在基准扩展方面，其两阶段生成验证流程为其他语言文化背景的物理推理数据集建设提供了范本；在模型架构领域，基于该数据集的评估结果推动了文化感知神经网络的设计创新；在跨文化比较研究中，EPiK与PIQA等西方基准的对比分析深化了我们对文化因素影响物理推理机制的理解。这些工作共同构成了文化敏感人工智能研究的重要支柱。

数据集最近研究