five

Unanswerable Math Word Problem (UMWP)

收藏
arXiv2024-03-06 更新2024-06-21 收录
下载链接:
https://github.com/Yuki-Asuuna/UMWP
下载链接
链接失效反馈
官方服务:
资源简介:
UMWP数据集是由华东师范大学软件工程学院和复旦大学计算机科学学院联合开发的,旨在评估大型语言模型在无法回答的数学文字问题上的幻觉现象。该数据集包含5200个问题,分为五个类别,其中一半是可回答问题,一半是不可回答问题。数据集的创建过程涉及对现有数学问题数据集的修改,通过特定的策略将可回答问题转换为不可回答问题。UMWP数据集主要用于评估和改进大型语言模型在处理数学问题时的准确性和可靠性,特别是在面对复杂或模糊情境时的表现。

The UMWP dataset was co-developed by the School of Software Engineering of East China Normal University and the School of Computer Science of Fudan University, aiming to evaluate the hallucination phenomenon of large language models (LLMs) when encountering unanswerable mathematical word problems. This dataset contains 5200 questions divided into five categories, with half being answerable and the other half unanswerable. The creation of the dataset involves modifying existing mathematical word problem datasets, converting answerable questions into unanswerable ones via specific strategies. The UMWP dataset is mainly utilized to evaluate and enhance the accuracy and reliability of LLMs when processing mathematical problems, especially their performance in complex or ambiguous contexts.
提供机构:
软件工程学院,华东师范大学
创建时间:
2024-03-06
搜集汇总
数据集介绍
main_image_url
构建方式
在数学问题求解领域,现有数据集普遍聚焦于可解答问题,缺乏对不可解答情形的系统覆盖。为填补这一空白,UMWP数据集基于SVAMP、MultiArith、GSM8K和ASDiv四个经典数学应用题数据集构建。研究团队邀请标注员对原始可解答题目进行人工修改,通过删除关键信息、引入模糊条件、设置不现实前提等八种策略,将题目转化为不可解答形式。每道修改后题目均经过三名志愿者独立验证,仅当三方一致认定为不可解答时才予以收录,最终形成包含2600道可解答题与2600道不可解答题的平衡语料库。
特点
该数据集的核心特征在于其系统性的不可解答问题分类体系,依据SQuAD 2.0的标注框架,将不可解答问题细分为关键信息缺失、关键信息模糊、不现实条件、无关对象和问题缺失五大类别。这种分类不仅覆盖了数学应用题中常见的逻辑缺陷类型,更为大语言模型的幻觉检测提供了多维度的评估视角。数据集中各类型题目比例经过精心设计,其中模糊信息类占比最高达49%,准确反映了现实场景中问题表述的复杂性,而问题缺失类仅占5%,体现了数据分布的合理性。
使用方法
使用该数据集时,研究者可采用直接输入、指令引导和上下文学习三种输入范式对大语言模型进行测试。评估过程融合了文本相似度计算与数学表达式检测的双重机制:首先通过SimCSE模型计算模型输出与预设不可解答模板的语义相似度,当相似度超过0.75阈值时判定为不可解答识别;对于输出数学表达式的情况,则采用正则表达式检测变量表达式的存在,以此捕捉模型对潜在变量的识别能力。最终以F1分数作为核心评估指标,将不可解答问题设为正例,可解答问题设为负例,全面量化模型在数学问题场景下的幻觉程度。
背景与挑战
背景概述
在大型语言模型(LLM)迅速崛起的背景下,其生成内容中存在的幻觉问题日益引发研究关注。2024年,由华东师范大学软件工程研究所与复旦大学计算机科学技术学院等机构的研究团队共同构建了Unanswerable Math Word Problem(UMWP)数据集,旨在通过数学应用题这一特定领域,系统评估LLM在模糊或信息缺失语境下产生不可靠推测的倾向。该数据集包含5200个问题,涵盖可解答与不可解答两类,其核心研究在于为LLM的幻觉现象提供一个可靠、可量化的评估基准,从而推动模型在数学推理与问答任务中的鲁棒性与可信度发展。
当前挑战
UMWP数据集所应对的核心领域挑战在于,传统数学应用题数据集主要聚焦于可解答问题,缺乏对模型在信息不全或条件矛盾时识别与拒绝作答能力的评估。构建过程中的主要挑战包括:首先,需要基于现有数学应用题数据集,通过人工标注与修改,系统性地创造涵盖关键信息缺失、条件模糊、逻辑矛盾等五类不可解答问题,并确保其语义合理性与类别平衡;其次,设计一套结合文本相似度计算与数学表达式检测的评估方法,以准确判断模型响应是否反映了问题的不可解答性,这要求对模型输出的语义与结构进行精细解析。
常用场景
经典使用场景
在大型语言模型(LLM)的幻觉评估领域,Unanswerable Math Word Problem(UMWP)数据集提供了一个标准化的基准测试平台。该数据集通过精心构建的不可解答数学应用题,系统地检验模型在面对信息缺失、条件模糊或逻辑矛盾等复杂情境时,是否能够识别问题的不可解性并避免生成虚假内容。研究人员利用UMWP评估不同规模、架构及训练策略的LLM,深入探究模型在数学推理任务中产生幻觉的内在机制与边界。
解决学术问题
UMWP数据集有效解决了LLM幻觉研究中缺乏针对性数学评估工具的学术空白。传统幻觉基准多集中于通用领域,难以精确量化模型在依赖严格逻辑与数值推理的数学问题中的幻觉倾向。该数据集通过引入五类不可解答问题,如关键信息缺失、条件不现实等,为学术界提供了可重复、可量化的评估框架,促进了对于上下文学习、人类反馈强化学习等技术在缓解幻觉方面效用的实证研究,推动了可信赖人工智能理论的发展。
衍生相关工作
UMWP数据集的发布催生了一系列聚焦于数学推理可信度的衍生研究。例如,后续工作扩展了多语言不可解答数学问题的构建,以评估模型的跨语言幻觉一致性。另有研究借鉴其评估方法,开发了针对代码生成与科学文献摘要等领域的幻觉检测基准。同时,该数据集启发了对“模型自我认知”能力的探索,即训练模型主动识别自身知识边界,相关技术已被集成至新一代对话系统的安全模块中,以增强其拒绝回答不确定问题的能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作