multisource-memory-benchmark

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/anon-neuripsed26/multisource-memory-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-Source Memory Benchmark 是一个用于选择性问答（`ANSWER` / `SKIP`）任务的诊断性测试数据集，专注于处理多源个人记忆中的冲突信息。数据集包含四个种子（seeds），每个种子有480个虚构人物（personas），每个人物有18个问题，总计34,560个实例。数据完全合成，模拟了五种证据流（evidence streams），每种流具有已知的失真特性（如偏差方向、丢失率等），从而允许方法在潜在真实情况（latent ground truth）下进行评估。数据集适用于比较不同选择性问答聚合方法（如单源、融合、端到端LLM等）在受控失真条件下的表现，尤其适合研究冲突证据、缺失字段和主题依赖性自我报告偏差的处理。数据集采用CC-BY-4.0许可，但缓存的LLM输出受上游服务条款约束。

The Multi-Source Memory Benchmark is a diagnostic test dataset for selective question answering (`ANSWER` / `SKIP`) tasks, focusing on handling conflicting information in multi-source personal memories. The dataset contains four seeds, each with 480 fictional personas, each persona having 18 questions, totaling 34,560 instances. The data is entirely synthetic, simulating five evidence streams, each with known distortion characteristics (e.g., bias direction, missing rate, etc.), allowing methods to be evaluated under latent ground truth. The dataset is suitable for comparing different selective QA aggregation methods (e.g., single-source, fusion, end-to-end LLM, etc.) under controlled distortion conditions, especially for studying the handling of conflicting evidence, missing fields, and topic-dependent self-reporting biases. The dataset is licensed under CC-BY-4.0, but cached LLM outputs are subject to upstream service terms.

创建时间：

2026-05-02

原始信息汇总

数据集概述

Multi-Source Memory Benchmark 是一个用于评估大语言模型在多源个人记忆冲突场景下进行选择性问答能力的诊断性测试基准。该数据集完全由合成数据构成，不包含任何真实用户数据。

基本信息

发布状态：匿名提交至 NeurIPS 2026 Evaluations & Datasets Track 的审稿材料。
许可证：CC-BY-4.0（数据集结构、合成人物、基准架构）。缓存的大模型输出受第三方提供商服务条款约束。
语言：英语。
数据规模：10,000 < n < 100,000。
任务类型：问答、文本分类。
标签：基准测试、选择性问答、个人记忆、多源、大模型评估、冲突解决、合成。

数据构成与规模

属性	数值
种子（Seeds）	4 个（s20260321 用于开发，全部 4 个用于报告汇总结果）
每种子人物（Personas）	480 个
每人问题数	18 个（涵盖 8 种推理类型）
总实例数	4 × 480 × 18 = 34,560
难度类别	3 种（稳定 / 时间偏移 / 陈述 vs 揭示），每种子各 160 个人物
每种子数据划分	训练 216 / 开发 48 / 校准 96 / 测试 120
推理类型	A-仲裁 · B-身份 · C-计划-现实 · D-时间趋势 · E-因果 · F-缺失数据 · G-注释 · Ctrl-控制
主题	工作 · 饮食 · 社交 · 睡眠 · 锻炼
答案空间	15 个有序问题，3 个名义问题

数据结构与来源

每个 persona 对应一个文件夹，包含：

event_table.json：潜在的天级世界状态
ground_truth.json：18 个确定性答案
structural_sources/：5 个证据流，每个具有已知的失真模型

五个证据流及其失真特征：

证据流	失真类型	偏置方向	备注
`profile_ltm`	陈旧/理想化	≈ 0	粗略先验
`planner`	乐观 vs 习惯	+1	从习惯参数出发
`daily_self_report`	主题依赖	±1（因主题而异）	最多样化
`objective_log`	微小±噪声	0	最准确
`device_log`	约50%丢失率	0	存在处精确

数据配置

数据集包含 4 个配置，分别对应不同种子：

s20260321（开发种子，480 个人物）
s20260322（评估种子，480 个人物）
s20260323（评估种子，480 个人物）
s20260324（评估种子，480 个人物）

预期用途

适用场景：

比较在受控失真条件下的选择性问答聚合方法（单源、融合、端到端大模型、预言机）
压力测试方法如何处理冲突证据、缺失字段和主题依赖的自我报告偏置
研究个人记忆问答中跳过成本 vs 错误成本之间的权衡

不适用场景：

训练面向真实用户的个人记忆助手
研究真实的自由文本披露或隐私攻击
在选择性问答框架之外评估通用大模型推理能力

缓存输出与第三方条款

数据集中包含来自 GPT、Gemini、DeepSeek、Qwen3 等大模型的缓存输出，用于确保论文结果的可复现性。这些缓存输出受相应第三方提供商服务条款约束。

局限性与偏置

合成数据：人物从编码分布中采样，未建模真实用户的依赖关系和罕见事件
西方倾向模板：活动类型、计量单位、自然语言渲染均采用英语及美国风格
主题覆盖狭窄：18 个问题覆盖 5 个主题，不包含金融、健康、人际关系等领域
专为选择性问答诊断优化：并非通用大模型推理质量的排行榜

搜集汇总

数据集介绍

构建方式

该数据集为一项诊断性测试基准，旨在评估多源个人记忆场景下选择性问答系统的性能。其构建方式独具匠心，完全通过合成途径生成，不包含任何真实用户数据。每个虚拟人物（persona）都拥有一个潜在的事件表作为隐藏的真实世界状态，并由此投射出五个证据流，包括长期记忆档案、计划记录、日常自我报告、客观日志与设备日志。每个证据流被注入了已知且可控的失真模式，如偏差方向、数据丢失率与信息粒度差异，使得研究者能够将模型表现与潜在真实标签进行比较，而非依赖于随意某个单一来源。整个基准包含四个种子，每个种子涵盖480个虚拟人物，共计34,560个测试实例。

使用方法

研究者可通过Hugging Face平台或代码仓库获取该数据集。推荐的获取方式是下载压缩档案以避免文件逐个获取的速率限制问题。数据集已在四个种子上预计算了基准结果，包含来自GPT、Gemini、DeepSeek、Qwen3等前沿语言模型的缓存输出，确保论文报告的指标可精确复现。使用者可通过路径API便捷加载特定虚拟人物的多个证据流文件、潜在事件表与真实标签。该基准特别适合评估在受控失真条件下不同聚合方法的性能，研究选择性问答中跳过错误回答的成本权衡，以及测试模型处理冲突证据与缺失信息的能力。

背景与挑战

背景概述

在大型语言模型（LLM）广泛应用于个性化问答系统的背景下，多源个人记忆的融合与冲突消解成为亟待攻克的难题。该数据集创建于2026年，由匿名研究团队为NeurIPS 2026评测与数据集赛道构建，核心研究问题聚焦于选择性问答（SELECTIVE QA）中面对多源冲突证据时的聚合方法比较。通过模拟五个受控失真证据流（如规划器乐观偏差、自我报告主题依赖偏差、设备日志高缺失率等），数据集提供了从潜在事件表生成确定性标签的框架，颠覆了传统评测中仅依赖单一源信号作为参照的范式。其对相关领域的影响力在于为多源记忆融合方法提供了可量化诊断基准，涵盖基础模型、结构化融合方法及GPT、Gemini等前沿LLM的对比，推动了个人记忆问答系统在真实性、鲁棒性评估方面的标准化进程。

当前挑战

该数据集着重应对两大挑战。在领域问题层面，多源个人记忆问答面临证据冲突与缺失导致的语义歧义，例如自我报告中的主题依赖偏差与设备日志的缺失数据并存，传统聚合方法难以在保留准确信息的同时避免错误传播，需在跳过与回答间权衡成本。在构建过程中，挑战在于精准模拟真实世界的失真模式——需在合成牛头人模型中编码五种可控偏差（如偏差方向、缺失率、粒度），并确保480个牛头人角色、18种推理类型跨越5个主题领域生成34,560个测试实例，同时维持潜在真相的唯一确定性。此外，数据集需兼顾公平评测的统计严谨性（如训练/校准/测试分割）与对抗平台API配额的技术限制，最终通过缓存LLM输出达成完全可复现性。

常用场景

经典使用场景

在人工智能与认知科学的交叉领域中，多源记忆冲突评审基准（Multi-Source Memory Benchmark）被精心设计为一项诊断性测试平台，专门用于评估大语言模型在面对来自多个信息源的矛盾性个人记忆时的选择性问答能力。该数据集通过为每个虚拟人格构建五个具有已知且可控失真特征的证据流（如长期记忆剖面、计划器、日常自我报告、客观日志与设备日志），系统地模拟了现实世界中个人记忆的歧义性与不完整性。研究者和开发者通常利用此基准来对比不同聚合方法（包括单源基准、结构化融合策略以及前沿大语言模型）在处理冲突证据、缺失字段和主题依赖性偏差方面的表现。其经典使用场景涵盖了模型在稳定状态、时间性转移及陈述与揭示偏好之冲突等三种难度类别下的表现分析，为理解大语言模型的记忆推理鲁棒性提供了一个精细且可复现的评估框架。

解决学术问题

该数据集的诞生深刻回应了学术界在个人化问答系统研究中长期面临的几个核心挑战：如何量化并比较不同模型在面对多源、矛盾且带有系统性偏差的记忆信息时的选择性回答能力。传统评价基准往往假设信息源一致且可靠，忽略了现实世界中个人记忆的异质性与冲突性。通过引入一个基于潜在外显事件表生成的多重证据流框架，该基准第一次允许研究者以受控方式独立调节每个信息源的偏差方向、数据缺失率和粒度，从而将模型的性能指标与客观的潜在真实状态而非任何单一信息来源进行对比。这一设计有力地推动了关于选择性问答与冲突消解机制的研究，使学术界能够更系统地评估模型在“何时应回答”与“何时应跳过”这一关键权衡中的表现，并为设计更鲁棒的人机交互记忆系统奠定了方法论基础。

实际应用

在实际应用层面，该数据集所定义与评估的选择性问答能力对于构建下一代个人数字化助手具有直接且深远的意义。现代个人辅助系统（如日程管理、健康追踪与日常反思应用）经常需要从多个异构数据源（如用户主动输入、自动传感器日志、历史偏好设置与计划任务）中整合信息以回答用户查询。然而，这些信息源之间不可避免地存在时间性差异、主观性与客观性的冲突以及部分信息缺失。通过对此类冲突场景的模拟与评估，该数据集为开发能够在不确定性环境下做出合理判断（即识别何时信息充分可答、何时应承认不确定性并跳转问题）的个人记忆代理提供了宝贵的测试资源。其潜在应用领域包括面向个人的健康监测系统、日程冲突仲裁工具、以及记忆辅助设备，特别是在需要整合用户自我报告与自动监测数据以提供准确建议的场景中。

数据集最近研究