five

Multilingual Native Reasoning Challenge (MultiNRC)

收藏
arXiv2025-07-23 更新2025-07-25 收录
下载链接:
https://huggingface.co/datasets/ScaleAI/MultiNRC
下载链接
链接失效反馈
官方服务:
资源简介:
MultiNRC是一个包含超过1000个由法语、西班牙语和中文母语者编写的本族语言和文化背景下的推理问题的评估基准。数据集涵盖了语言特定的语言推理、文字游戏和谜语、文化/传统推理以及与文化相关的数学推理四个核心推理类别。数据集的创建过程包括招募母语者创作具有挑战性的推理问题,并提供客观和简短的最终答案,以方便自动评估。MultiNRC旨在解决当前大型语言模型在多语言推理能力方面的不足,并促进多语言和具有文化背景的评估研究。

MultiNRC is an evaluation benchmark encompassing over 1,000 reasoning questions developed by native speakers of French, Spanish, and Chinese, grounded in their respective native languages and cultural contexts. The dataset covers four core reasoning categories: language-specific linguistic reasoning, word games and riddles, cultural/traditional reasoning, and culture-related mathematical reasoning. The dataset construction process involves recruiting native speakers to create challenging reasoning questions, paired with objective and concise final answers to facilitate automatic evaluation. MultiNRC aims to address the current gaps in the multilingual reasoning capabilities of large language models (LLMs), and promote research on multilingual and culturally grounded evaluation.
提供机构:
Scale AI
创建时间:
2025-07-23
原始信息汇总

MultiNRC: Multilingual Native Reasoning Challenge 数据集概述

数据集简介

MultiNRC是一个用于评估大型语言模型多语言推理能力的挑战性基准数据集,专注于法语、西班牙语和中文。数据集包含超过1,000个由母语者编写的推理问题,旨在捕捉语言和文化上的细微差别。

关键特性

  • 支持语言:法语、西班牙语、中文
  • 问题类别
    • 语言特定的语言推理
    • 文字游戏与谜语
    • 文化推理与传统
    • 具有文化相关性的数学推理
  • 英文等效内容:针对文化/传统和数学推理类别,提供人工翻译的英文版本以便直接比较
  • 真实答案:每个提示都附带简短、客观的答案用于自动评估

数据结构

每个数据条目包含:

  • 母语提示和答案(i18n_prompt, i18n_gtfa
  • (数学推理和文化推理类别任务)英文等效提示和答案(english_prompt, english_gtfa
  • 元数据:task_id, language, category

数据集配置

  • 默认配置
    • 测试集路径:test/data-00000-of-00001.arrow
  • 数据规模:1K<n<10K

引用信息

bibtex @article{fabbri2025multinrc, title = {MultiNRC: A Challenging Native Multilingual Reasoning Evaluation Benchmark for LLMs}, author = {Fabbri, Alexander R. and Mares, Diego and Flores, Jorge and Mankikar, Meher and Hernandez, Ernesto and Lee, Dean and Liu, Bing and Xing, Chen}, year = {2025}, note = {arXiv preprint, arXiv:XXXX.XXXXX} }

搜集汇总
数据集介绍
main_image_url
构建方式
MultiNRC数据集的构建采用了多语言母语者协作的方式,通过招募法语、西班牙语和汉语的母语者,依据四大核心推理类别(语言特异性推理、文字游戏与谜语、文化/传统推理、文化相关数学推理)创作具有本土文化背景的推理问题。为确保问题难度,仅保留至少3/5的主流大语言模型无法正确回答的问题,并采用LLM-as-a-judge的自动评估机制验证答案准确性,其与人工评估的一致性超过95%。针对文化推理和数学推理类别,额外提供了由双语专家人工翻译的英文等效问题集,以支持跨语言推理能力的对比研究。
特点
该数据集的核心价值在于其原生性与文化根植性:1055个问题均由母语者基于本土语言习惯和文化背景原创,避免了翻译式数据集的英语文化偏差。问题涵盖法语、西班牙语和汉语三种语言,每类推理任务均设计为需要多步骤文化或语言知识整合(如法语中单复数性别变化的词汇谜题、中国成语谐音梗、西班牙传统节日的日期计算等)。特别设计的英文等效问题集为分析模型在原生语言与英语间的推理差异提供了直接对照,而自动评估框架则确保了高效且可靠的大规模模型评测。
使用方法
使用MultiNRC时,研究者可通过四种实验设置评估模型性能:1)Original模式直接测试模型对原生语言问题的解答能力;2)En模式使用英文等效问题检测语言转换对推理的影响;3)EnT/R模式要求模型自主翻译问题后英文推理;4)EnR模式保持原问题语言但强制英文推理。评估时采用基于GPT-4.1的自动评判器,其支持短答案客观判定并与人工判断高度一致。对于文化相关数学问题,可重点对比En与Original模式的性能差异,以揭示模型文化知识库的语言依赖性。
背景与挑战
背景概述
Multilingual Native Reasoning Challenge (MultiNRC) 是由Scale AI的研究团队于2025年推出的多语言推理评估基准,旨在填补大型语言模型(LLMs)在多语言和文化背景推理能力评估上的空白。该数据集由法语、西班牙语和汉语的母语者编写,包含1000多个原生问题,覆盖语言特定推理、文字游戏与谜语、文化/传统推理及文化相关数学推理四大类别。MultiNRC的创建标志着多语言推理评估从简单的英语翻译转向真正反映语言和文化多样性的原生问题,为LLMs在多语言环境下的推理能力提供了更全面和真实的测试平台。
当前挑战
MultiNRC面临的挑战主要体现在两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,MultiNRC旨在解决LLMs在多语言和文化背景下的推理能力评估不足的问题,特别是针对需要深入语言和文化理解的任务。现有评估多通过英语基准翻译而来,无法真实反映非英语语言和文化的复杂性。在构建过程中,挑战包括确保问题的原生性和文化相关性,以及设计能够准确评估模型推理能力的评估方法。此外,保持问题的挑战性(要求至少3/5的顶级模型无法正确回答)和开发与人类判断高度一致的自动评估系统也是重要挑战。
常用场景
经典使用场景
MultiNRC数据集专为评估大型语言模型(LLM)在法语、西班牙语和中文等语言中的原生推理能力而设计。其经典使用场景包括测试模型在语言特定推理、文字游戏与谜语、文化/传统推理以及具有文化相关性的数学推理任务中的表现。通过涵盖这些多元化的推理类别,MultiNRC能够全面评估模型在不同语言和文化背景下的综合推理能力。
实际应用
在实际应用中,MultiNRC可用于优化多语言虚拟助手、跨文化客服系统和教育工具的开发。例如,在法语地区的法律咨询AI中,模型需理解当地法律术语的文化内涵;在中文市场的金融AI中,需准确计算与传统节气相关的利率问题。该数据集还能帮助评估翻译工具在处理文化特定表达时的准确性,提升全球化产品的本地化质量。
衍生相关工作
MultiNRC的发布催生了一系列相关研究,包括针对特定语言优化的推理模型(如FrancoBERT对法语谜语的专项改进)、跨文化知识增强方法(如CulturalLoRA适配器),以及多语言思维链技术(X-Reason框架)。这些工作显著扩展了原始数据集的应用范围,并在WMT2025多语言推理竞赛中成为核心评估基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作