anonymous-benchmark-full

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://huggingface.co/datasets/anonymous53453/anonymous-benchmark-full

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个视频记忆基准测试，用于评估视频记忆能力。数据集包含非N-back问题739个，N-back问题1664个，总计2403个问题，以及64个N-back选定序列案例。数据集采用分阶段上传方式，包含多个存档组，如非N-back记忆干扰、N-back选定片段等，每个组都有相应的文件数量和大小。上传过程分为多个批次，每个批次有特定的大小和文件数量。数据集的结构包括README.md、清单、问题、QA根目录、N-back目录、存档和校验文件等。

This dataset is a video memory benchmark designed to evaluate video memory capabilities. It contains 739 non-N-back questions and 1664 N-back questions, totaling 2403 questions overall, plus 64 selected N-back sequence cases. The dataset adopts a phased upload approach and includes multiple archive groups such as non-N-back memory interference, selected N-back segments, etc. Each group has corresponding file counts and sizes. The upload process is divided into multiple batches, each with a specific size and number of files. The dataset structure includes README.md, manifest, questions, QA root directory, N-back directory, archives, and checksum files, among others.

创建时间：

2026-05-01

原始信息汇总

数据集概述：Anonymous Video Memory Benchmark

数据集地址：https://huggingface.co/datasets/anonymous53453/anonymous-benchmark-full

版本：video_memory_eval_hf_release_v1
适用范围：adopted_open_source（采用的开源版本）
子集：full（完整子集）

数据规模

非N-back问题：739个
N-back问题：1664个
总问题数：2403个
N-back所选序列案例：64个

数据分组与文件大小

数据集按内容分为四个归档组，各组的文件数量和大小如下：

归档组	文件数量	总大小	预期归档文件数
`non_nback_memory_interference`	110个	128.671 GiB	3个
`nback_selected_segments`	451个	6.818 GiB	1个
`non_nback_interleaved`	134个	151.713 GiB	4个
`non_nback_split_screen`	207个	205.905 GiB	5个

上传批次与大小

数据集分批次上传，各批次的大小和文件数如下：

批次	大小	文件数
`batch_00`	135.489 GiB	4个
`batch_01`	135.000 GiB	3个
`batch_02`	106.713 GiB	3个
`batch_03`	115.905 GiB	3个

数据集目录结构

README.md：说明文件
manifests/：清单文件目录（包含 upload_plan.full.json 作为归档文件真实来源）
questions/：问题数据目录
qa_root/：问答根目录
nback/：N-back相关数据目录
archives/：归档文件目录
checksums_sha256.txt：SHA256校验和文件
unpack_archives.sh：解压归档脚本

注意事项

该数据集采用分阶段上传方式，部分归档文件可能尚未出现，应以 manifests/upload_plan.full.json 作为预期归档文件的唯一依据。

搜集汇总

数据集介绍

构建方式

该数据集名为anonymous-benchmark-full，属于视频记忆基准测试数据集，涵盖被采纳的开源子集。其构建基于2403道精心设计的题目，包括739道非N-back题目与1664道N-back题目，并选取了64个N-back序列案例。数据以多批次归档文件形式分阶段上传，包含non_nback_memory_interference、nback_selected_segments、non_nback_interleaved和non_nback_split_screen四个归档组，共计902个文件，总存储容量约493.1 GiB。每个归档组均对应特定的记忆评估任务类型，旨在系统性地测评视频情景下的记忆能力。

特点

该数据集的核心特点在于其精细化的任务分层与大规模视频内容结合。通过区分N-back与非N-back题目，覆盖了工作记忆与长时记忆的不同维度。N-back部分专注于连续序列中的记忆保持，而非N-back部分则通过干扰、交错与分屏设计引入复杂认知挑战。数据集采用分阶段上传机制，并配备校验清单与解压脚本，确保数据完整性与可复现性。此外，其详细的归档计划文件作为上载真实性的权威来源，为科研用户提供了高可靠性的数据管理方案。

使用方法

使用该数据集时，首先需下载所有归档批次文件，并依据manifests/upload_plan.full.json清单确认文件完整性。接着通过提供的unpack_archives.sh脚本解压归档组至对应目录。数据集布局清晰，包含questions、qa_root、nback等子目录，便于研究人员直接索引题目与答案。由于视频文件容量较大，建议在高性能计算环境中进行解压与处理，并利用checksums_sha256.txt校验文件完整性。最终，研究人员可根据N-back与非N-back的分类结构，设计个性化的记忆评估实验或模型训练流程。

背景与挑战

背景概述

该数据集名为anonymous-benchmark-full，源自一篇匿名论文，专注于视频记忆评估领域。数据集创建于近期，旨在系统性地衡量智能体在动态视觉环境中的记忆能力，特别是针对N-back任务与非N-back任务的表现差异。研究团队通过精心设计的视频片段和问答对，构建了包含2403个问题的评估基准，其中N-back问题占据了主要部分。该数据集对认知科学、计算机视觉以及人工智能中的工作记忆建模研究具有重要推动作用，为评估模型在时空连续性任务中的记忆保留与干扰抑制能力提供了标准化工具。

当前挑战

该数据集所解决的领域核心挑战在于，现有基准多关注静态图像或单一时刻的记忆，缺乏对动态视频中连续信息流记忆能力的全面评估。构建过程中面临多重困难：首先，需要大量精心录制的视频片段以模拟真实世界的时空连贯性；其次，设计N-back问题需精准控制序列长度与干扰复杂度，避免任务难度失衡；此外，数据规模庞大（总计约490 GiB），分批次上传与校验增加了管理复杂性。这些挑战共同凸显了视频记忆评估在数据多样性、任务设计严谨性及工程实现可靠性上的高难度要求。

常用场景

经典使用场景

在视频理解与认知科学的前沿交叉领域，Anonymous Video Memory Benchmark 数据集凭借其精心设计的非N-back与N-back问题架构，成为评估视频长期记忆与工作记忆的首选基准。研究者可借助该数据集模拟真实视频场景中的记忆干扰、交错信息与分屏呈现，从而量化模型在处理时间序列视觉信息时的记忆保持能力，这一应用场景为视频理解模型的认知层级评测提供了标准化范本。

解决学术问题

该数据集直面当前多模态大模型在视频记忆评估中缺乏系统化干扰控制的学术困境，通过引入记忆干扰项、序列检索分析与跨屏信息整合等设计，有效解决了视频时间动态性导致的记忆提取模糊问题。其意义在于首次构建了包含2403道不同复杂度题目的全量问卷，使学术社区得以从认知心理学视角严谨对比模型与人类在视频信息记忆上的表现差异，为记忆机制的计算建模奠定了数据基础。

衍生相关工作

围绕该数据集已衍生出多项经典研究，包括基于非N-back记忆中干扰模式分析的视频异常检测模型、融合N-back机制的工作记忆增强递归网络，以及利用分屏架构构建的视频多视角记忆对比学习框架。这些工作不仅验证了数据集在认知科学假说检验中的有效性，还推动了视频记忆评估从静态图像向动态时空序列的范式跃迁，催生了如记忆一致性损失函数、时序注意力掩码等新的方法论贡献。

以上内容由遇见数据集搜集并总结生成