MortalMATH
收藏Hugging Face2026-01-27 更新2026-01-28 收录
下载链接:
https://huggingface.co/datasets/sileod/MortalMATH
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为MortalMATH,旨在评估推理目标与紧急情境之间的冲突。数据集包含600个训练样本,总大小为749750字节。每个样本包含以下字段:用户提示(user_prompt)、系统提示(system_prompt)、问题(problem,包含子字段:难度等级、问题描述、处理后的答案、解决方案、问题类型)、紧急程度(urgency_level)、原始解决方案(raw_solution)和真实答案(ground_truth)。数据集适用于自然语言处理和推理任务的研究,特别是在紧急情境下的决策制定和冲突解决方面。相关研究可参考arXiv论文《MortalMATH: Evaluating the Conflict Between Reasoning Objectives and Emergency Contexts》。
创建时间:
2026-01-15
原始信息汇总
MortalMATH 数据集概述
数据集基本信息
- 数据集名称:MortalMATH
- 发布年份:2026年
- 相关论文:MortalMATH: Evaluating the Conflict Between Reasoning Objectives and Emergency Contexts
- 论文链接:https://arxiv.org/abs/2601.18790
- 作者:Etienne Lanzeray, Stephane Meilliez, Malo Ruelle, Damien Sileo
- 论文编号:arXiv:2601.18790
- 主要类别:cs.CL
数据集结构与内容
特征字段
user_prompt:字符串类型,用户提示。system_prompt:字符串类型,系统提示。problem:结构体类型,包含以下子字段:level:字符串类型,问题难度级别。problem:字符串类型,问题描述。processed_answer:字符串类型,处理后的答案。solution:字符串类型,解决方案。type:字符串类型,问题类型。
urgency_level:int64类型,紧急程度级别。raw_solution:字符串类型,原始解决方案。ground_truth:字符串类型,真实答案。
数据划分
- 训练集:
- 样本数量:600
- 数据大小:749,750字节
- 下载大小:18,010字节
- 数据集总大小:749,750字节
配置信息
- 默认配置:
- 数据文件路径:
data/train-* - 对应划分:训练集
- 数据文件路径:
搜集汇总
数据集介绍

构建方式
在数学推理与紧急情境交互的研究领域中,MortalMATH数据集通过精心设计的结构构建而成。其核心来源于人工编制与系统化处理,每个数据样本均包含用户提示、系统提示及结构化问题信息,问题本身进一步细分出难度级别、具体内容、处理后的答案、标准解法与类型。数据构建过程注重标注的完整性,特别引入了紧急程度等级这一维度,旨在模拟现实决策中时间压力与认知资源的冲突场景,从而为评估模型在压力下的推理一致性提供坚实基础。
特点
该数据集显著特点在于其多维度的冲突评估框架。它不仅提供了传统数学问题的文本描述与标准答案,还整合了紧急级别标签与原始解决方案,从而创建了一个能够测试模型在时间紧迫条件下是否保持逻辑一致性的实验环境。数据样本覆盖多种问题类型与难度层次,确保了评估的广泛性与层次性,使得研究者能够深入探究推理目标与应急上下文之间的复杂相互作用。
使用方法
使用MortalMATH时,研究者可将其应用于大型语言模型或数学推理系统的性能评估。典型流程包括加载训练集数据,解析用户提示、系统提示、问题结构及紧急级别等字段,进而设计实验以检验模型在给定紧急情境下生成解答的准确性与逻辑稳健性。通过对比模型输出与数据集中提供的处理答案、原始解法和真实答案,可以定量分析模型在压力推理任务中的表现,推动对机器推理可靠性的前沿探索。
背景与挑战
背景概述
MortalMATH数据集由Etienne Lanzeray等研究人员于2026年构建,旨在探究大型语言模型在紧急情境下的推理冲突问题。该数据集聚焦于数学问题求解领域,通过引入紧迫性级别,模拟现实世界中时间压力对模型决策的影响。其核心研究问题在于评估模型如何在精确推理与应急响应之间取得平衡,为人工智能安全性与可靠性研究提供了新的实验平台,推动了人机交互与认知计算领域的深入探索。
当前挑战
MortalMATH数据集所解决的核心挑战在于测试模型在时间紧迫条件下维持数学推理准确性的能力,这涉及到多目标优化与情境感知的复杂交互。构建过程中的主要困难包括如何量化并标注不同等级的紧急情境,以及确保问题与解决方案在逻辑一致性与现实紧迫性之间的有效匹配,这些挑战对数据标注的精细度与领域知识的整合提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,MortalMATH数据集被广泛应用于评估大型语言模型在紧急情境下的数学推理能力。该数据集通过模拟高紧迫性场景,要求模型在时间压力下解决数学问题,从而测试其推理过程与应急响应之间的冲突。经典使用场景包括模型性能基准测试,特别是在多目标优化任务中,研究者利用该数据集分析模型如何在准确性、速度和情境适应性之间取得平衡。这种评估有助于揭示模型在现实世界紧急情况下的潜在局限,为改进推理机制提供实证基础。
解决学术问题
MortalMATH数据集主要解决了人工智能研究中关于冲突目标优化的学术问题。传统评估往往忽视情境紧迫性对推理过程的影响,而该数据集通过引入紧急级别变量,使研究者能够系统探究模型在压力下的决策偏差。它促进了对于多任务学习、鲁棒性推理以及人机交互中应急响应的理论研究,填补了现有评估框架在动态环境适应性方面的空白。这一贡献推动了更贴近实际应用的评估标准发展,增强了模型在复杂场景下的可信度。
衍生相关工作
围绕MortalMATH数据集,已衍生出多项经典研究工作。例如,研究者基于其紧急级别特征,开发了新的评估指标来衡量模型在冲突目标下的性能均衡。同时,该数据集激发了关于情境感知推理架构的探索,如结合强化学习来优化模型在时间压力下的行为。相关成果还扩展到跨领域应急语言模型的研究,促进了人工智能在安全关键领域的发展,为后续数据集如CrisisMath或UrgentQA的设计提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成



