five

WMB-100K — Wontopos Memory Benchmark v2.1

收藏
github2026-03-26 更新2026-03-25 收录
下载链接:
https://github.com/Irina1920/WMB-100K
下载链接
链接失效反馈
官方服务:
资源简介:
WMB-100K是一个企业级的情境基准测试数据集,用于AI内存系统,包含4.3M令牌(2.3M文档+105K对话轮次)和2,708个问题。它测试内存系统在真实情境中检索正确信息的能力,包括情境检索准确性和虚假记忆防御。数据集分为两部分:Part A包含10个文档域的2.3M令牌,Part B包含10个对话类别的约2.0M令牌。

WMB-100K is an enterprise-grade contextual benchmark dataset for AI memory systems, containing 4.3M tokens (2.3M documents + 105K conversation turns) and 2,708 questions. It tests whether an AI memory system can retrieve correct information for real-world contextual scenarios, without evaluating the reasoning capabilities or response generation quality of large language models (LLMs).
创建时间:
2026-03-22
原始信息汇总

WMB-100K 数据集概述

数据集基本信息

  • 数据集名称: WMB-100K — Wontopos Memory Benchmark v1.2
  • 核心目标: 首个企业级AI记忆系统基准测试,专注于评估信息存储与检索的准确性。
  • 数据规模: 总计约430万令牌(tokens)。
  • 问题数量: 3,217个问题。
  • 对话轮次: 105,591轮。
  • 文档数量: 230万令牌的文档(来自10个知识领域)。
  • 测试重点: 存储准确性、检索精度、错误记忆防御。

数据集结构与内容

组成部分

  1. Part A — 文档检索

    • 内容: 10个知识领域的维基百科文档。
    • 规模: 230万令牌(平均每个领域约23万令牌)。
    • 问题: 1,000个。
    • 分值: 最高50分。
  2. Part B — 对话记忆

    • 内容: 10个类别的自然对话,共105,591轮。
    • 规模: 约200万令牌。
    • 问题: 1,817个。
    • 分值: 最高50分。

对话类别

共10个类别,每个类别包含约10,000轮对话,并自然嵌入了约100个事实。

  1. daily_life - 日常生活
  2. relationships - 人际关系
  3. work_career - 工作与职业
  4. health_fitness - 健康与健身
  5. travel_places - 旅行与地点
  6. media_taste - 媒体品味
  7. finance_goals - 财务目标
  8. pets_hobbies - 宠物与爱好
  9. education_skills - 教育与技能
  10. beliefs_values - 信仰与价值观

测试难度等级

等级 名称 测试内容
L1 简单 单一事实查找
L2 交叉 查找2个相关事实
L3 时间+交叉 时间追踪与交叉引用
L4 综合 追踪随时间的变化
L5 多推理 查找并连接3个以上事实
FM 错误记忆 询问从未提及的内容(必须回答“未知”)

评分机制

  • 总分: 100分(Part A 50分 + Part B 50分)。
  • 评分标准: 每个问题由GPT-4o-mini判断为“正确”或“错误”,无部分分数。
  • 错误记忆惩罚: 每个错误记忆(幻觉)扣0.25分(共400个探测问题,最多扣100分)。
  • 成绩等级:
    • 90-100: 卓越
    • 80-89: 优秀
    • 70-79: 良好
    • 60-69: 一般
    • 50-59: 低于平均
    • 40-49: 差
    • 0-39: 不及格

基准测试结果(示例)

系统 Part A (/50) Part B (/50) 总分 (/100) 等级 错误记忆防御
LangChain (FAISS) 未测试 14.5 0.0 不及格 0.0%
Mem0 (OSS v1.0.7)
WML 即将公布 即将公布 即将公布

LangChain详细结果(仅Part B):

  • 正确回答: 527 / 1,824 (28.9%)
  • Part B原始分数: 14.5 / 50
  • 错误记忆探测: 400个
  • 误报: 400个 (100%)
  • 错误记忆惩罚: -100.0
  • 最终分数: 0.0 / 100

使用要求与快速开始

  • 运行要求:
    • 需要设置 OPENAI_API_KEY 用于GPT-4o-mini评分(约0.07美元)。
    • 待测记忆系统需暴露两个REST端点:
      • POST /store - 存储记忆。
      • POST /search - 搜索记忆。
  • 快速开始命令: bash git clone https://github.com/Irina1920/WMB-100K cd WMB-100K cargo build --release

    快速测试(3个类别 x 1K轮次)

    cargo run -- run --url $MEMORY_API_URL --key $MEMORY_API_KEY --quick

    完整测试(10个类别 x 10K轮次)

    cargo run -- run --url $MEMORY_API_URL --key $MEMORY_API_KEY

输出格式

  • 结果文件 (result.json): 包含系统名称、WMB分数、各难度等级细分、延迟等信息的JSON文件。
  • 报告文件 (REPORT.md): 人类可读的Markdown报告,包含表格和成绩等级。

许可证与引用

  • 许可证: Apache 2.0。
  • 引用格式: bibtex @misc{wmb100k2026, title={WMB-100K: A 100,000-Turn Benchmark for AI Memory Systems}, author={Wontopos, L.L.C.}, year={2026}, url={https://github.com/Irina1920/WMB-100K} }
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能记忆系统评估领域,WMB-100K数据集通过精心设计的流程构建而成。其构建始于数据摄入阶段,系统性地整合了来自10个维基百科领域的230万令牌文档,以及涵盖日常生活、工作、健康等10个类别的105,591轮自然对话,总计约430万令牌。随后,数据集基于这些海量信息,生成了3,217个覆盖五个难度级别的问题,并专门设置了400余个虚假记忆探针,用以检验系统对未提及信息的识别与防御能力。整个构建过程模拟了真实生产环境中的信息存储与检索场景,确保了评估的全面性与挑战性。
特点
该数据集的核心特点在于其前所未有的规模与精细的评估维度。作为首个企业级AI记忆系统基准测试,它包含了430万令牌的数据总量,远超同类基准的对话轮次与问题数量。数据集独创性地引入了五个渐进式难度级别,从简单的单事实查询到复杂的多事实关联推理,系统性地考察了记忆系统的检索精度。尤为关键的是,数据集嵌入了虚假记忆测试,对幻觉生成施加惩罚,这直接关联到生产系统中“未知”回答的安全性需求,使其评估更具现实意义与深度。
使用方法
使用该数据集进行评估,需遵循其标准化的测试流程。首先,评估者需将自身记忆系统配置为提供`/store`和`/search`端点的REST API服务,以接收并存储全部数据集内容。随后,运行基准测试工具,工具将自动向系统发送全部3,217个查询,并收集检索结果。最终,利用GPT-4o-mini作为标准评判模型,对每个答案进行二元判定(正确或错误),并计算包含虚假记忆惩罚在内的综合得分。整个过程支持快速测试与完整测试两种模式,并可通过编写适配器脚本兼容非标准接口的系统。
背景与挑战
背景概述
随着人工智能对话系统向长期、个性化交互演进,对记忆模块的存储与检索能力提出了前所未有的要求。WMB-100K基准由Wontopos公司于2026年推出,旨在填补企业级AI记忆系统大规模评估的空白。该数据集包含430万令牌的文档与对话数据,并设计了3217个涵盖五个难度层级的问题,其核心研究问题聚焦于记忆系统在超长上下文中的精确信息定位能力与虚假记忆防御机制。作为首个达到十万轮对话规模的公开基准,WMB-100K为衡量记忆系统在生产环境中的实用性确立了新的标准,推动了相关技术从实验室原型向工业级解决方案的跨越。
当前挑战
WMB-100K所针对的领域挑战在于,现有记忆系统难以在超大规模、多轮次对话中维持高精度检索,并普遍存在将未提及信息误判为已知的‘幻觉’问题。构建该数据集的过程同样面临多重挑战:一是需要生成超过十万轮自然对话并嵌入数千个事实,确保语义连贯性与事实分布的合理性;二是设计涵盖简单查询、跨事实关联、时序追踪及综合推理的多层次评估体系;三是建立可靠的自动化评分机制,特别是对虚假记忆探针进行精准判定,以避免主观偏差并控制评估成本。
常用场景
经典使用场景
在人工智能记忆系统研究领域,WMB-100K数据集作为首个企业级规模的基准测试工具,其经典应用场景聚焦于评估长对话环境下的信息检索性能。该数据集通过模拟长达十万轮次的人类自然对话,覆盖日常生活、职业发展、健康管理等十个核心领域,为研究者提供了接近真实应用场景的测试环境。系统需要在存储四百三十万标记的庞大数据后,准确回答三千余个跨难度层级的问题,这种设计使得该数据集成为检验记忆系统在复杂信息流中保持检索精度的黄金标准。
实际应用
在实际应用层面,WMB-100K数据集为开发具备长期记忆能力的智能助手系统提供了关键验证平台。在个性化服务领域,该系统能够支持智能助手持续跟踪用户的饮食偏好、健康指标和生活习惯,实现精准的个性化推荐。在专业咨询场景中,记忆系统可准确回溯客户历史对话中的关键细节,提升金融顾问、医疗咨询等服务的连贯性与专业性。此外,该基准测试强调的虚假记忆防御机制,直接关系到智能系统在医疗诊断、法律咨询等高风险领域的应用安全性。
衍生相关工作
围绕该数据集已衍生出多项具有影响力的研究工作。Wontopos团队基于基准测试结果开发的WML记忆引擎,专门针对十万轮次以上的长时记忆场景进行了架构优化。学术界借鉴其虚假记忆探测机制,提出了多种基于注意力权重的幻觉抑制算法。产业界则将该数据集的评估框架集成到LangChain、Mem0等开源记忆系统的迭代开发流程中,形成了以检索精度和幻觉控制为核心的技术演进路径。这些衍生工作共同推动了人工智能记忆系统从实验室原型向工业级应用的跨越式发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作