codysnider/FalseMemBench
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/codysnider/FalseMemBench
下载链接
链接失效反馈官方服务:
资源简介:
---
pretty_name: FalseMemBench
license: mit
task_categories:
- text-retrieval
language:
- en
tags:
- retrieval
- memory
- llm-agents
- adversarial
size_categories:
- n<1K
---
# FalseMemBench
`FalseMemBench` is an adversarial benchmark for evaluating memory retrieval systems under heavy distractor pressure.
The goal is to measure whether a system can retrieve the right memory when many nearby but wrong memories are present.
## Focus
The benchmark is designed for memory systems used by LLM agents.
It emphasizes:
- entity confusion
- environment confusion
- time/version confusion
- stale facts vs current facts
- speaker confusion
- near-duplicate paraphrases
## Public Surface
The public release is intentionally small:
- `data/cases.jsonl`: canonical benchmark dataset
- `schema/case.schema.json`: case schema
- `scripts/validate.py`: dataset validator
- `scripts/run_tagmem_benchmark.py`: benchmark runner for `tagmem`
- `scripts/run_mempalace_benchmark.py`: benchmark runner for MemPalace-style retrieval
- `scripts/run_benchmark.py`: simple keyword baseline
- `scripts/run_bm25_benchmark.py`: BM25 baseline
- `scripts/run_dense_benchmark.py`: dense retrieval baseline
- `docs/`: supporting benchmark notes
## Layout
- `schema/case.schema.json`: benchmark case schema
- `data/cases.jsonl`: canonical benchmark cases
- `docs/`: benchmark design notes
- `scripts/validate.py`: schema validator for the JSONL dataset
- `scripts/run_benchmark.py`: simple keyword baseline
- `scripts/run_tagmem_benchmark.py`: run the benchmark against a real `tagmem` binary
- `scripts/run_mempalace_benchmark.py`: run the benchmark against MemPalace raw-style retrieval
- `scripts/run_bm25_benchmark.py`: lexical BM25 baseline
- `scripts/run_dense_benchmark.py`: dense retrieval baseline
- `requirements.txt`: optional Python dependencies for BM25 and dense baseline scripts
## Canonical Dataset
`data/cases.jsonl` is the only canonical benchmark file.
There are no public snapshot versions in this repository. Version history is tracked through git.
## Running
Validate the canonical dataset:
```bash
python3 scripts/validate.py
```
Run the simple keyword baseline:
```bash
python3 scripts/run_benchmark.py
```
Run the `tagmem` benchmark:
```bash
python3 scripts/run_tagmem_benchmark.py --tagmem-bin tagmem
```
Run the MemPalace-style benchmark:
```bash
python3 scripts/run_mempalace_benchmark.py
```
Optional BM25 and dense baselines use dependencies from `requirements.txt`.
## Case format
Each case contains:
- a `query`
- a set of `entries`
- one or more `relevant_ids`
- a single `adversary_type`
- optional metadata for analysis
## Example
```json
{
"id": "env-001",
"query": "What database does staging use?",
"adversary_type": "environment_swap",
"entries": [
{
"id": "e1",
"text": "The staging environment uses db-staging.internal.",
"tags": ["staging", "database", "infra"],
"depth": 1
},
{
"id": "e2",
"text": "The production environment uses db-prod.internal.",
"tags": ["production", "database", "infra"],
"depth": 1
}
],
"relevant_ids": ["e1"]
}
```
## Current adversary types
- `entity_swap`
- `environment_swap`
- `time_swap`
- `state_update`
- `speaker_swap`
- `near_duplicate_paraphrase`
Current dataset size:
- `573` cases
## Intended Use
The benchmark is intended to be:
- model-agnostic
- storage-agnostic
- metadata-friendly
- easy to publish to GitHub and Hugging Face
提供机构:
codysnider
搜集汇总
数据集介绍

构建方式
在构建FalseMemBench数据集时,研究者们精心设计了一种对抗性基准测试框架,旨在模拟高干扰压力下的记忆检索场景。该数据集通过生成包含查询、条目集合、相关标识符及对抗类型的结构化案例,特别聚焦于实体混淆、环境混淆、时间版本混淆、陈旧与当前事实对比、说话者混淆以及近义复述等核心挑战。每个案例均遵循严格的JSONL格式,并附带详细的模式定义,确保数据的一致性与可验证性,从而为评估记忆系统的鲁棒性提供了标准化基础。
使用方法
使用FalseMemBench数据集时,研究人员可通过提供的脚本工具进行便捷的基准测试运行。首先,利用验证脚本确保数据集的格式符合规范;随后,可选择运行不同的基准测试脚本,如简单关键词基线、tagmem二进制测试、MemPalace风格检索或BM25与密集检索基线。这些脚本支持模型无关和存储无关的评估,用户只需按照命令行指令执行相应操作,即可在不同配置下测试记忆检索系统的性能,便于结果复现与比较分析。
背景与挑战
背景概述
FalseMemBench作为一项对抗性基准测试工具,其诞生源于大型语言模型(LLM)智能体在复杂信息检索场景中对记忆系统鲁棒性的迫切需求。该数据集由专注于记忆检索与对抗评估的研究团队构建,旨在系统性地衡量记忆检索系统在面临大量干扰信息时的准确性与稳定性。其核心研究问题聚焦于如何有效区分高度相似的干扰记忆与目标记忆,从而提升LLM智能体在实体混淆、环境切换、时间版本差异等多重干扰下的决策可靠性。自发布以来,FalseMemBench为记忆检索系统的评估提供了标准化、可复现的测试框架,推动了智能体记忆管理领域向更严谨、可量化的方向发展。
当前挑战
FalseMemBench所针对的领域挑战在于,现有记忆检索系统在实体混淆、环境混淆、时间版本混淆、陈旧事实与当前事实冲突、说话者混淆以及近义复述等复杂干扰下,难以精准定位相关记忆,这直接影响了LLM智能体在动态环境中的长期推理与行动一致性。在数据集构建过程中,研究者需精心设计对抗性案例,确保干扰项与目标项在语义、语境或逻辑上高度接近,从而模拟真实场景中的记忆检索困境。同时,保持数据集的模型无关性与存储无关性,并维护其结构清晰、易于扩展的特性,亦是构建过程中的关键挑战。
常用场景
经典使用场景
在大型语言模型代理的记忆检索系统评估中,FalseMemBench扮演着关键角色。该数据集通过构建包含大量干扰项的对抗性场景,模拟了实体混淆、环境混淆、时间版本混淆等复杂情况,旨在检验系统在高度干扰压力下准确提取目标记忆的能力。其经典使用场景集中于对记忆检索算法进行压力测试,特别是在处理近义复述、陈旧信息更新等挑战时,评估系统的鲁棒性和精确性。
解决学术问题
FalseMemBench针对记忆检索领域中的核心学术问题提供了系统化解决方案。它有效解决了在信息过载和干扰项密集环境下,检索模型容易产生误判和混淆的难题,特别是针对实体、环境、时间等维度的对抗性干扰。该数据集的意义在于为记忆系统的评估建立了标准化基准,推动了检索算法在对抗性场景下的理论发展,并为LLM代理的长期记忆机制研究提供了关键实验平台。
实际应用
在实际应用层面,FalseMemBench为构建可靠的LLM代理记忆系统提供了重要支撑。它可应用于智能助手、对话系统和知识管理工具中,帮助开发者在复杂查询场景下优化记忆检索性能。例如,在客户服务环境中,系统需要准确区分不同时间点的政策版本或不同用户的对话历史,该数据集的对抗性测试能够确保检索结果免受相似信息的干扰,提升服务的准确性和可靠性。
数据集最近研究
最新研究方向
在大型语言模型智能体与记忆检索系统领域,FalseMemBench作为对抗性基准测试工具,正推动前沿研究聚焦于高干扰压力下的精准记忆提取能力。该数据集通过模拟实体混淆、环境混淆、时间版本混淆及近义复述等多种对抗类型,挑战现有检索系统在复杂噪声环境中的鲁棒性。相关研究热点紧密关联多模态智能体的长期记忆架构优化,尤其在动态知识更新与上下文感知检索方面,为提升智能体在真实场景中的决策可靠性提供了关键评估框架。其影响延伸至增强检索增强生成系统的抗干扰性,对推动可解释、高稳定的人工智能记忆模块发展具有重要理论意义与实践价值。
以上内容由遇见数据集搜集并总结生成



