DIAMONDs
收藏arXiv2025-05-19 更新2025-05-21 收录
下载链接:
https://github.com/StonyBrookNLP/diamonds
下载链接
链接失效反馈官方服务:
资源简介:
DIAMONDs是一个用于动态信息和心智模型的多方对话问答数据集。该数据集旨在测试多方对话中追踪动态信息和处理信息不对称性的心智模型能力。数据集包含3786个问答三元组,其中每个三元组包含一个多方对话、一个基于对话内容的问题以及答案。数据集包含全知和参与者中心的问题,以及包含干扰项和故意不完整情景的变体。所有问题都需要非提取式的多步数值推理,以评估模型在复杂多方互动中的心智模型能力。
DIAMONDS is a multi-party conversational question answering dataset focused on dynamic information and mental models. This dataset is developed to evaluate models' mental modeling abilities in tracking dynamic information and handling information asymmetry during multi-party conversations. It comprises 3,786 question-answer triples, with each triple containing a multi-party conversation, a question grounded in the conversation content, and a corresponding answer. The dataset includes both omniscient and participant-centric questions, alongside variants that incorporate distractors and intentionally incomplete scenarios. All questions necessitate non-extractive multi-step numerical reasoning, allowing for the assessment of a model's mental modeling capabilities in complex multi-party interactions.
提供机构:
纽约州立大学石溪分校计算机科学系
创建时间:
2025-05-19
搜集汇总
数据集介绍

构建方式
DIAMONDs数据集采用多阶段合成数据生成流程构建,首先通过大型语言模型生成包含初始变量状态和后续扰动的叙事脚本,随后利用马尔可夫过程生成包含参与者动态进出的对话模板。为确保逻辑一致性,采用双模型验证机制对脚本-问题-答案三元组进行交叉验证,最终通过指令微调将结构化脚本转化为自然的多方对话。该流程通过控制变量扰动和参与者信息不对称性,系统化构建了包含3786个对话-问题对的基准数据集。
特点
该数据集聚焦商业、金融等目标导向的群体对话场景,核心特征体现在三方面:动态数值推理要求参与者跟踪随时间演变的变量状态;信息不对称设计通过参与者进出对话制造认知差异;问题类型涵盖全知视角与参与者中心视角,后者需处理包含错误信念的推理场景。每个对话均嵌入多步数值计算任务,并设置干扰项和未指定信息变体,全面评估模型对动态知识状态的建模能力。
使用方法
使用DIAMONDs时需区分两种评估模式:全知问题要求模型整合对话全部信息进行全局推理;参与者中心问题则需模拟特定参与者的知识状态进行受限推理。评估指标允许2%的数值容错率,对未指定信息场景需识别不可回答性。建议采用思维链提示和5轮自反思机制,在零样本设置下测试模型理论心智能力,重点关注模型在错误信念场景和干扰信息过滤中的表现。
背景与挑战
背景概述
DIAMONDs(Dynamic Information And Mental modeling Of Numeric Discussions)是由Stony Brook University的研究团队于2025年提出的多轮对话问答数据集,旨在评估人工智能系统在复杂多参与者对话场景中的心智理论(Theory of Mind, ToM)能力。该数据集聚焦商业、金融等目标导向的群体讨论场景,通过动态数值量(如营销费用、预期利润等)的跟踪与推理任务,系统考察模型对参与者知识状态不对称、长期依赖关系及干扰信息过滤等现实对话挑战的处理能力。其创新性在于将数值推理嵌入多轮对话框架,要求模型同时具备信息追踪、心理状态建模和数学计算等跨维度能力,为对话理解研究提供了更接近真实交互场景的评估基准。
当前挑战
DIAMONDs面临的核心挑战体现在两个层面:在领域问题层面,现有模型难以有效处理参与者中心化推理(准确率较全知问题下降24.9%),尤其在参与者存在错误信念的场景下性能骤减至27%;同时模型对含干扰信息的对话表现显著下降,且仅能识别63.8%的信息不足场景。在构建层面,确保数值一致性、信息不对称逻辑以及长程依赖关系成为主要难点,研究团队通过三阶段生成流程(脚本生成-验证-对话转换)结合马尔可夫模板采样,解决了直接生成导致的数值矛盾和信息丢失问题。这些挑战突显了当前语言模型在真实多轮对话中心智建模能力的本质局限。
常用场景
经典使用场景
DIAMONDs数据集的核心应用场景在于评估多参与者对话场景下的心智理论(ToM)能力。该数据集通过模拟商业会议、财务讨论等真实场景,构建了包含动态数值信息变化的对话序列。研究者可利用该数据集测试模型在跟踪变量状态演变、处理信息不对称、区分相关信息和干扰项等方面的表现,特别适合验证模型在参与者离场导致信息缺失情况下的推理能力。
解决学术问题
该数据集有效解决了当前ToM评估中存在的三大局限:首先,突破了传统叙事文本的简单场景,通过多轮对话中的数值推理任务,要求模型整合跨时间步的信息;其次,设计了参与者中心问题,专门检验模型处理信息不对称和错误信念的能力;最后,引入干扰项和未明确场景,挑战模型在信息过载或不足时的表现。这些特性使DIAMONDs成为评估复杂社交认知能力的标杆工具。
衍生相关工作
基于DIAMONDs的评估范式,后续研究衍生出多个重要方向:NegotiationToM将评估扩展到谈判场景的战略推理;HiToM构建了更高阶的心智状态评估框架;OpenToM则引入参与者性格维度。这些工作共同推进了复杂社交场景的认知建模,其中Chen等人提出的ToMBench建立了包含DIAMONDs特性的综合评估体系。
以上内容由遇见数据集搜集并总结生成



