CoMem-Benchmark-2026

Hugging Face2026-05-05 更新2026-05-06 收录

下载链接：

https://huggingface.co/datasets/paper-anon-2026/CoMem-Benchmark-2026

下载链接

链接失效反馈

官方服务：

资源简介：

CoMem数据集源自PersonaMem和DialSim数据集，专门通过两阶段LLM验证流程来隔离偏好演化和实体跟踪，适用于双人和多人场景。该数据集是真实数据和生成数据的混合体，包含合成的链式思维（CoT）推理和从原始文本源校正的答案。数据生成过程使用两种不同的大型语言模型（GPT-5和Claude 4.5 Sonnet）进行两轮校正，以确保答案的一致性。数据集分为两部分：PersonaMem（包含32K和128K配置）和DialSim，每部分都有特定的问题和上下文文件。数据集发布在CC-BY-4.0许可证下，同时尊重原始数据集的许可证（DialSim为CC BY 4.0，PersonaMem为MIT许可证）。适用于长期上下文代理中的持续记忆和动态偏好演化研究。

The CoMem dataset is derived from the PersonaMem and DialSim datasets, specifically designed to isolate preference evolution and entity tracking through a two-stage LLM verification process, suitable for both two-person and multi-person scenarios. It is a hybrid of real and generated data, containing synthetic chain-of-thought (CoT) reasoning and answers corrected from original text sources. The data generation process involves two rounds of correction using two different large language models (GPT-5 and Claude 4.5 Sonnet) to ensure answer consistency. The dataset is divided into two parts: PersonaMem (including 32K and 128K configurations) and DialSim, each with specific question and context files. The dataset is released under the CC-BY-4.0 license, while respecting the original datasets licenses (DialSim under CC BY 4.0 and PersonaMem under MIT license). It is suitable for research on continuous memory and dynamic preference evolution in long-context agents.

创建时间：

2026-05-04

原始信息汇总

数据集概述：CoMem Benchmark 2026

CoMem（Continual Memory Benchmark）是一个专注于长上下文、记忆和动态偏好追踪的基准测试数据集，专为评估长上下文智能体（Long-Context Agents）在持续记忆和动态偏好演化方面的能力而设计。

🔹 数据集构成

该基准测试包含两个主要子数据集，均基于现有开源数据集构建：

PersonaMem
- 提供两种上下文长度的版本：32K 和 128K
- 包含问题文件（questions_32k.csv 和 questions_128k.csv）及对应的上下文文件（contexts_32k.jsonl 和 contexts_128k.jsonl）
DialSim
- 提供共享问题文件 questions_dialsim.csv
- 包含三类系统特定的上下文文件：
  - context_full.jsonl（全记忆）
  - context_rag.jsonl（RAG记忆）
  - context_alternate.jsonl（Mem0与MemP）

🔹 数据生成与验证流程

种子数据：基础问题、选项和原始答案来源于 PersonaMem 和 DialSim 数据集
生成器：采用两个不同的大语言模型以避免模型特定偏差：
- 第一轮：GPT-5 进行答案验证并生成逐步推理路径（CoT）
- 第二轮：Claude 4.5 Sonnet 接收同一输入及第一轮推理，重新验证并输出推理路径
验证方法：在四个上下文截断点（0.25、0.5、0.75、1.0）进行跨轮一致性检查，仅保留两个模型在所有检查点上生成的答案完全一致的样本（包括动态演变的答案序列）

🔹 数据集规模

大小类别：1K < n < 10K

🔹 数据集配置

配置名称	数据文件路径
`personamem_32k`	`benchmark_data/personamem_32k/questions_32k.csv`
`personamem_128k`	`benchmark_data/personamem_128k/questions_128k.csv`
`dialsism`	`benchmark_data/dialsism/questions_dialsism.csv`

🔹 许可信息

CoMem基准测试许可证：CC-BY-4.0
源数据集许可：
- DialSim：基于原 CC BY 4.0 许可
- PersonaMem：基于原 MIT 许可

🔹 引用

如使用本基准测试，请引用以下论文：

bibtex @inproceedings{anonymous2026comem, title={CoMem: A Benchmark for Continual Memory and Dynamic Preference Evolution in Long-Context Agents}, author={Anonymous Authors}, booktitle={Submitted to The Fortieth Annual Conference on Neural Information Processing Systems (NeurIPS)}, year={2026} }

搜集汇总

数据集介绍

构建方式

CoMem-Benchmark-2026数据集源自PersonaMem与DialSim两个公开语料库，通过两阶段大语言模型验证流程精心筛选而成。首先，以原始数据中的问题、选项及答案为种子；随后，引入GPT-5与Claude 4.5 Sonnet两套异构模型，依次对截断至不同比例（0.25、0.5、0.75及1.0）的上下文进行答案核验与链式推理生成。仅当两轮模型在所有检查点上的答案序列完全一致时，该样本方被保留，从而确保动态推理场景下标注的鲁棒性与一致性。

特点

该基准测试的核心特色在于对长上下文与动态偏好演变的双重聚焦。通过多轮截断机制，数据集自然捕捉了随上下文扩展而迁移的正确答案序列，从而评估模型在持续记忆与偏好追踪上的能力。同时，数据集覆盖二元与多方对话场景，分别对应PersonaMem（32K与128K两种长度）与DialSim配置，为不同规模的长上下文智能体系统提供了标准化的评测平台。所有样本均经过严格的一致性验证，剔除了噪声与歧义。

使用方法

用户可依据评测需求选择对应配置文件加载数据。对于PersonaMem基准，问题文件与上下文文件均按32K与128K两种长度组织；对于DialSim，共享同一问题文件，但根据记忆系统类型（完整记忆、RAG记忆或Mem0/Memp）搭配不同的上下文文件。直接读取CSV格式的问题文件与JSONL格式的上下文文件即可复现评测流程，所有数据均遵循CC-BY-4.0许可协议发布。

背景与挑战

背景概述

CoMem-Benchmark-2026是一个面向长上下文智能体持续记忆与动态偏好演化评估的基准数据集，由匿名研究团队于2026年创建，旨在填补现有记忆评估体系中缺乏对偏好动态变化和实体追踪能力系统性度量的空白。该基准整合了PersonaMem与DialSim两个源数据集，通过双阶段LLM验证管道生成高质量的链式推理数据，涵盖32K和128K两种上下文长度设置，为对比不同记忆系统在二元及多轮对话场景下的表现提供标准化测试平台。其发布顺应了大语言模型在长期交互中记忆管理与偏好适应能力日益重要的研究趋势，有望推动持续学习、对话系统及个性化AI代理等领域的基准建立与方法创新。

当前挑战

该数据集面临的领域挑战主要源于长上下文中偏好演化的非平稳性和多轮交互中实体的复杂追踪需求，即智能体需在数千词长度的对话历史中准确捕捉用户偏好的渐变与突变，并据此动态调整回应，而现有模型常因上下文窗口限制或记忆衰减而出现遗忘与混淆。在构建过程中，研究团队需克服合成数据生成中的模型偏见问题，通过交叉使用GPT-5与Claude 4.5 Sonnet并设置四个截断检查点进行严格一致性校验，以确保推理路径的鲁棒性和答案迁移的准确性；同时，必须妥善整合源自不同许可证的源数据集，保持对原著作权的尊重，并设计如DialSim的多系统评估配置（全量记忆、RAG记忆、Mem0等）以覆盖广泛的应用场景，这增加了数据处理与基准统一化的复杂性。

常用场景

经典使用场景

在大语言模型的长文本理解与持续记忆研究中，CoMem-Benchmark-2026 扮演着不可或缺的评估标杆角色。该数据集精心融合了 PersonaMem 与 DialSim 两大来源，通过创新的两阶段大语言模型验证流水线，精准捕获二元与多方对话场景中的偏好演化与实体追踪能力。其独特之处在于为记忆系统提供了 32K 与 128K 两种上下文长度的测试配置，以及涵盖全记忆、检索增强记忆等不同记忆机制的评估框架。研究者常利用该基准检验模型在长时间对话中追踪人物偏好变化、回忆早期信息并据此做出动态推理的能力，尤其专注于检验模型在面对信息逐步揭示时能否保持推理的一致性，成为长上下文代理持续记忆研究领域的标准化测评平台。

解决学术问题

该基准系统性地解决了长期困扰自然语言处理领域的两个核心学术难题：偏好演变追踪与长程依赖推理的量化评估。传统数据集多聚焦于静态知识检索或单轮事实查询，忽视了在复杂对话过程中人物态度与偏好的动态演化。CoMem-Benchmark-2026 通过在四个关键上下文截断点（0.25、0.5、0.75、1.0）进行严格的交叉一致性验证，迫使模型在信息不完备时做出合理推断，并在新信息出现时灵活调整评判，从而精准刻画模型的动态推理韧性。这一创新设计推动了学术界对‘记忆漂移’现象的深入理解，为构建具备人类级别人格连贯性的对话系统奠定了理论与评估基础，其影响力已延伸至认知架构设计、情境记忆建模等前沿研究领域。

衍生相关工作

CoMem-Benchmark-2026 的出现催生了一系列富有启发性的衍生研究。受其动态记忆评估框架启发，研究者提出了面向连续学习场景的‘记忆整合网络’，致力于解决模型在新旧知识冲突时的遗忘困境。另一经典工作则围绕该基准开发了‘层级检索增强生成’架构，通过优化记忆单元的分层索引与检索策略，显著提升长上下文场景下的信息召回精度。此外，该数据集的多轮一致性验证机制被借鉴并扩展至多模态记忆追踪任务，衍生出融合视觉与文本线索的‘情境感知记忆图谱’构建方法。这些工作不仅深化了我们对语言模型记忆本质的理解，更推动了记忆机制从静态存储向动态演化的范式转变，为下一代具备终身学习能力的智能系统铺就了可衡量的研究路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集