MathComp
收藏arXiv2025-06-04 更新2025-06-06 收录
下载链接:
https://anonymous.4open.science/r/more_or_less_wrong-33B2
下载链接
链接失效反馈官方服务:
资源简介:
MathComp数据集由300个比较场景组成,每个场景涉及两个个体和可量化的活动,如时间、金钱或采取的行动。该数据集旨在研究LLMs中的框架偏差,特别是如何使用“更多”、“更少”或“相等”等术语影响模型预测。数据集中的每个场景都配有多达14个提示变体,并针对三种广泛使用的LLM家族进行评估。该数据集旨在揭示LLMs在推理过程中对语义框架的敏感性,以及如何通过不同的提示设计来影响模型的输出。
The MathComp dataset consists of 300 comparison scenarios, each involving two individuals and quantifiable activities such as time, money, or actions taken. This dataset is designed to investigate framing biases in large language models (LLMs), specifically how terms like "more", "less", or "equal" influence model predictions. Each scenario in the dataset is paired with up to 14 prompt variants, and evaluated across three widely used LLM families. The dataset aims to uncover the sensitivity of LLMs to semantic framing during reasoning, and how different prompt designs can affect model outputs.
提供机构:
University of Milan, Politecnico di Milano, University of Sheffield
创建时间:
2025-06-04
原始信息汇总
More or Less Wrong: A Benchmark for Directional Bias in LLM Comparative Reasoning
概述
MATHCOMP是一个诊断性基准,旨在探究大型语言模型(LLMs)在比较性语言框架下的推理能力。数据集揭示了LLMs在回答逻辑等价但使用"more"、"equal"或"less"等术语框架的比较问题时表现出系统性方向性偏差。
数据集结构
MATHCOMP包含300个基础比较数学场景,每个场景可通过多个身份标记实例化,并使用14种框架提示变体进行评估,产生数千个不同的评估案例。
数据集字段
每个场景包含以下字段:
| 字段 | 描述 |
|---|---|
scenario_id |
比较场景的唯一标识符 |
context_a |
涉及人物A的数学应用题 |
context_b |
涉及人物B的数学应用题 |
task |
具体活动(如照顾、编码、阅读) |
category |
更广泛的类别(如健康、购物、餐饮) |
quantity |
比较值(时间、金钱或其他可测量数量) |
number_format |
使用的数字格式(标准或文字表达) |
gold_label |
正确的比较结果("more"、"equal"或"less") |
prompt_variants |
每个场景的14种不同框架提示数组 |
提示变体
每个场景包含14种不同的提示变体,交叉三个维度:
- 框架类型:中性、直接、间接
- 框架术语:"more"、"less"、"equal"
- 框架位置:提示开头与结尾
人口统计扩展
数据集支持通过替换占位符与人口统计标记进行身份增强评估:
- 性别:男性、女性
- 种族/民族:白人、黑人、亚洲人、西班牙裔、非洲人
关键发现
- 系统性方向性偏差:LLMs根据问题框架方式显示可预测的回答"more"、"less"或"equal"的模式。
- 模型规模效应:方向性漂移随模型容量减少,但即使最大的模型也表现出显著的框架敏感性。
- 思维链帮助:显式推理减少了框架引起的偏差,但并未完全消除。
- 人口统计交互:提示中的身份引用可以放大或逆转框架效应,特别是在刻板印象相关领域。
- 缓解策略:结构化输出和思维链提示提供了部分改进。
许可证
本数据集采用知识共享署名4.0国际(CC BY 4.0)许可证授权。您可以自由共享和改编数据集,前提是给予适当的署名。
更多详情,请参阅LICENSE文件。
搜集汇总
数据集介绍

构建方式
MathComp数据集的构建采用了半自动化方法,结合了大型语言模型生成与专家筛选的双重流程。研究团队首先利用Claude Sonnet 3.7模型生成包含两个人物的数学比较场景,每个场景涉及可量化活动(如时间花费、金钱支出等),并通过符号化方程验证数学逻辑的正确性。经过人工过滤确保语义清晰度和算术有效性后,最终形成包含300个基础比较场景的数据集,每个场景可衍生出14种不同表述方式的提示变体。这种构建方式既保证了数据多样性,又通过严格的验证流程确保了数学基础的准确性。
特点
该数据集的核心特征在于其精心设计的语言学框架对比机制。每个数学比较场景配备七种中性到暗示性不等的提示变体,通过系统性地调整'更多'、'更少'或'相等'等比较术语的位置(句首或句尾),构建出14种表述变体。这种设计能精确测量语言模型在比较推理中存在的方向性偏差。数据集还创新性地引入人口统计标记模板,支持通过替换人物标识来研究社会身份线索与语言框架的交互效应,为探究语义框架与社会偏见的关联提供了实验基础。
使用方法
使用MathComp数据集时,研究者可通过标准化实验协议评估语言模型的框架敏感性。基础评估包含两个模式:非结构化输出(直接生成比较标签)和结构化输出(JSON格式)。进阶分析可采用思维链提示策略,包括自由形式推理和结构化推理两种变体。为探究社会身份影响,可将中性人物标识替换为性别或种族相关表述,同时保持数学问题不变。数据集提供的方向性错误率(DirErr)指标能量化模型在特定框架下产生系统性错误的倾向程度,适用于鲁棒性测试和公平性评估研究。
背景与挑战
背景概述
MathComp数据集由Mohammadamin Shafiei、Hamidreza Saffari和Nafise Sadat Moosavi于2025年提出,旨在研究大型语言模型(LLMs)在数学比较推理中的框架偏差问题。该数据集包含300个数学比较场景,每个场景通过14种不同的提示变体进行评估,覆盖了三种主流LLM家族。MathComp的核心研究问题是揭示LLMs在逻辑等价但表述不同的数学问题中表现出的系统性偏差,即模型预测结果如何受到“更多”、“更少”或“相等”等词汇的引导。这一研究为理解LLMs的推理鲁棒性和公平性提供了重要工具,推动了语义框架感知的评估方法发展。
当前挑战
MathComp数据集面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,数据集旨在解决LLMs在数学比较推理中的框架偏差问题,即模型预测如何受到表述方式的系统性影响。这一挑战的核心在于量化不同语义框架对模型推理方向的引导作用,尤其是在涉及社会身份标记时偏差的放大效应。在构建过程中,挑战包括确保数学场景的多样性和复杂性,设计具有控制变量的提示变体以隔离框架效应,以及验证标注的准确性和一致性。此外,数据集还需平衡计算成本与规模扩展之间的矛盾,同时处理社会身份标记引入的伦理和包容性问题。
常用场景
经典使用场景
MathComp数据集在大型语言模型(LLM)的推理偏差研究中具有重要应用。该数据集通过设计300个比较场景,每个场景包含14种不同的提示变体,用于系统评估语言模型在数学比较问题中的表现。经典使用场景包括评估模型在不同语义框架(如“更多”、“更少”或“相等”)下的推理一致性,以及分析提示结构对模型输出的影响。
实际应用
在实际应用中,MathComp数据集可用于评估和优化LLM在金融、医疗和教育等领域的决策支持系统。例如,在金融领域,模型需要准确比较不同投资方案的收益或风险;在医疗领域,模型需客观评估不同治疗方案的疗效。通过使用MathComp,开发者可以识别并减少模型因语义框架导致的偏差,提升其在实际场景中的可靠性。
衍生相关工作
MathComp数据集推动了多项相关研究,尤其是在LLM的鲁棒性和公平性领域。基于该数据集的研究发现,思维链提示(Chain-of-Thought Prompting)能部分减少语义框架偏差,但其效果因模型和提示结构而异。此外,该数据集还启发了关于社会身份标记(如性别、种族)与语义框架交互作用的研究,进一步拓展了LLM偏差分析的深度和广度。
以上内容由遇见数据集搜集并总结生成



