LONGMEMEVAL|对话AI数据集|记忆评估数据集
收藏LongMemEval 数据集概述
数据集简介
LongMemEval 是一个综合、具有挑战性和可扩展的基准测试数据集,用于测试聊天助手的长时记忆能力。该数据集包含500个高质量问题,用于测试以下五种核心长时记忆能力:
- 信息提取
- 多会话推理
- 知识更新
- 时间推理
- 拒绝回答
数据集结构
数据集包含三个文件:
longmemeval_s.json
: 包含约115k个token的聊天历史记录,适用于Llama 3。longmemeval_m.json
: 每个聊天历史记录包含约500个会话。longmemeval_oracle.json
: 仅包含证据会话的聊天历史记录。
每个文件包含500个评估实例,每个实例包含以下字段:
question_id
: 问题的唯一ID。question_type
: 问题类型,包括single-session-user
,single-session-assistant
,single-session-preference
,temporal-reasoning
,knowledge-update
,multi-session
。如果question_id
以_abs
结尾,则为abstention
问题。question
: 问题内容。answer
: 模型预期的答案。question_date
: 问题的日期。haystack_session_ids
: 历史会话的ID列表(按时间戳排序)。haystack_dates
: 历史会话的时间戳列表。haystack_sessions
: 用户-助手聊天历史会话的实际内容列表。每个会话包含多个轮次,每个轮次包含role
和content
字段。对于包含所需证据的轮次,额外提供has_answer: true
字段。answer_session_ids
: 代表证据会话的会话ID列表。
数据集下载
数据集可以从以下链接下载:
环境设置
推荐使用conda环境进行项目设置。具体步骤请参考README文件中的详细说明。
数据集评估
用户可以通过提供的评估脚本对系统输出进行评估。评估脚本将生成评估日志文件,并计算平均分数。
引用
如果使用该数据集,请引用以下文献:
@artical{wu2024longmemeval, title={LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory}, author={Di Wu and Hongwei Wang and Wenhao Yu and Yuwei Zhang and Kai-Wei Chang and Dong Yu}, year={2024}, eprint={2410.10813}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.10813}, }

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录