Ko-MuSR
收藏arXiv2025-10-28 更新2025-10-30 收录
下载链接:
https://github.com/mcrl/Ko-MuSR
下载链接
链接失效反馈官方服务:
资源简介:
Ko-MuSR是一个针对长篇韩文叙述的多步软推理基准,旨在评估语言模型在长文推理方面的能力。该数据集包含三个子任务:谋杀谜题、物体放置和团队分配,每个子任务包含250个例子。数据集中的叙述、推理链和多项选择题均由人工标注员进行验证,确保逻辑一致性和答案可推导性。Ko-MuSR为韩文自然语言处理提供了坚实的基础,使得能够系统地评估长上下文推理和提示策略。
Ko-MuSR is a multi-step soft reasoning benchmark targeting long-form Korean narratives, designed to evaluate the long-context reasoning capabilities of language models. This dataset includes three subtasks: murder mystery, object placement, and team assignment, with 250 examples for each subtask. All narratives, reasoning chains, and multiple-choice questions in the dataset are verified by human annotators to guarantee logical consistency and answer derivability. Ko-MuSR provides a solid foundation for Korean natural language processing, enabling systematic evaluation of long-context reasoning and prompting strategies.
提供机构:
首尔国立大学计算机科学系, 首尔国立大学数据科学研究生院
创建时间:
2025-10-28
原始信息汇总
Ko-MuSR 数据集概述
数据集基本信息
- 名称:Ko-MuSR
- 类型:多步软推理基准测试数据集
- 适用语言:韩语理解能力的大型语言模型
核心功能
- 支持对象放置任务的随机领域生成
- 支持团队分配任务的随机领域生成
- 提供三种数据实例生成:
- 谋杀之谜数据生成
- 对象放置数据生成
- 团队分配数据生成
技术要求
依赖环境
- openai==1.78.0
- lm-eval==0.4.8(需安装[api]配置)
必备条件
- 需要设置OpenAI API密钥环境变量
- 需要准备语言模型服务器进行评估
数据生成流程
随机领域生成
- 对象放置任务:使用sample_madlib_op.py脚本
- 团队分配任务:使用sample_madlib_ta.py脚本
数据实例生成
- 谋杀之谜数据:执行create_mm.sh脚本
- 对象放置数据:执行create_op.sh脚本
- 团队分配数据:执行create_ta.sh脚本
评估方法
- 使用LM Evaluation Harness进行评估
- 任务描述文件位于musr-tasks目录
- 提供基于本地推理服务器的评估示例
许可证信息
- 采用MIT许可证
- 原始代码参考:https://github.com/Zayne-sprague/MuSR
搜集汇总
数据集介绍

构建方式
Ko-MuSR数据集的构建遵循MuSR基准的三阶段合成流程,通过问题实例采样、推理树构建与叙事生成实现。首先从韩语特定领域种子中采样问题实例,涵盖谋杀谜案、物品放置与团队分配三个子任务;随后利用大型语言模型扩展推理树结构,添加事实节点与演绎节点;最后基于推理树生成逻辑连贯的韩语长叙事文本。所有生成内容均经过人工标注者双重审核,确保答案可从叙事中推导且符合逻辑一致性,同时通过独立参与者验证确保人类可解性。
使用方法
使用Ko-MuSR时需采用分层评估策略:首先通过零样本直接推理测试模型基础能力,随后引入少样本示例与任务特定提示词提升性能。建议采用3样本链式思维提示配置,结合子任务专属提示策略(如谋杀谜案的“动机-手段-机会”分析框架)。评估时需确保测试集与提示示例集隔离,并利用人工验证的黄金标签计算准确率。该数据集支持对多语言与韩语专用模型的跨语言推理迁移研究,同时可通过调整提示策略探究模型对长上下文推理的敏感性。
背景与挑战
背景概述
Ko-MuSR数据集由首尔国立大学研究团队于2025年创建,旨在填补韩语自然语言处理领域在长文本多步软推理评估方面的空白。该数据集基于MuSR基准框架,通过系统化合成流程构建包含谋杀谜案、物品放置和团队分配三个子任务的韩语叙事文本,确保逻辑一致性与文化适应性。其创新性在于首次实现了对韩语长上下文推理能力的全面测评,并通过人工标注验证了数据质量,为韩语大语言模型的推理能力评估提供了重要基础设施。
当前挑战
Ko-MuSR面临的领域挑战在于解决韩语长文本多步推理任务的评估难题,包括信息提取、逻辑链构建与文化语境理解。构建过程中需克服三大挑战:一是保持与原始MuSR框架的逻辑等价性同时实现韩语本土化适配,二是通过多轮人工标注确保叙事逻辑与问题可解性,三是避免训练数据污染问题以保障评估结果的可靠性。
常用场景
经典使用场景
Ko-MuSR数据集专为评估韩语长文本多步软推理能力而设计,其经典使用场景聚焦于测试大型语言模型在韩语叙事语境下的逻辑推理表现。该数据集通过构建包含逻辑连贯性验证的韩语叙事、推理链及多项选择题,模拟真实推理任务,要求模型在长文本中提取关键信息、进行多跳推理并得出合理结论。这一场景不仅检验模型的语言理解深度,更强调其跨句子边界的推理连贯性,为韩语自然语言处理研究提供了标准化的评估框架。
解决学术问题
Ko-MuSR有效解决了韩语自然语言处理领域中多步推理任务评估资源匮乏的核心问题。传统韩语基准测试多局限于短文本或特定领域(如编程、数学),缺乏对长语境下信息整合与逻辑推断能力的系统评估。该数据集通过引入受控合成流程与人工标注验证,确保了数据的逻辑一致性与答案可推导性,填补了韩语多步软推理基准的空白。其意义在于推动了跨语言推理能力泛化研究,揭示了多语言模型在韩语任务中的优势,为优化语言专用模型提供了理论依据与实践方向。
实际应用
在实际应用中,Ko-MuSR为韩语智能系统的开发与优化提供了关键评估工具。例如,在韩语教育科技领域,可用于构建自适应学习系统,通过分析学生对长文本推理题目的响应,精准评估其逻辑思维能力;在韩语客服机器人场景中,能测试模型对用户复杂叙述的深层意图理解与多轮交互推理能力。此外,该数据集支持企业对韩语内容审核系统的优化,帮助识别长文本中的逻辑矛盾或隐含风险,提升信息处理的准确性与效率。
数据集最近研究
最新研究方向
Ko-MuSR作为首个专注于韩语长文本多步软推理的基准数据集,近期研究聚焦于探索多语言大模型与韩语专用模型在跨语言推理能力上的差异。前沿实验表明,多语言模型在韩语推理任务中展现出超越专用模型的性能,揭示了推理能力的跨语言泛化特性。这一发现推动了针对韩语模型的提示策略优化研究,通过结合少样本示例、推理链和任务提示,显著提升了模型准确率并逼近人类表现。相关研究进一步探讨了小型语言模型在复杂提示策略下的不稳定表现,为韩语自然语言处理领域的模型优化与评估体系构建提供了重要参考。
相关研究论文
- 1Ko-MuSR: A Multistep Soft Reasoning Benchmark for LLMs Capable of Understanding Korean首尔国立大学计算机科学系, 首尔国立大学数据科学研究生院 · 2025年
以上内容由遇见数据集搜集并总结生成



