FLARE
收藏Hugging Face2026-05-10 更新2026-05-11 收录
下载链接:
https://huggingface.co/datasets/YqjMartin/FLARE
下载链接
链接失效反馈官方服务:
资源简介:
FLARE(全模态长视频视听检索基准)是一个专注于长视频多模态检索的数据集,包含399个长视频(总计225.4小时),这些视频被细分为87,697个片段。每个片段标注了三种类型的描述(仅视觉、仅音频和统一视听描述),并附带274,933条用户模拟查询。数据集旨在评估不同模态范围(视觉、音频、视觉+音频)和查询模式(基于描述、基于查询)的检索任务。FLARE是首个在长视频库上联合探究视听融合和真实用户风格查询的基准数据集。数据集文件以JSONL格式存储,包含片段级和视频级的描述与查询。此外,数据集还提供了数据构造流程和评估工具的代码。
FLARE (Full-modal Long-form video Audiovisual REtrieval benchmark) is a dataset focused on long-form video multimodal retrieval, containing 399 long videos (totaling 225.4 hours), which are subdivided into 87,697 segments. Each segment is annotated with three types of descriptions (visual-only, audio-only, and unified audiovisual descriptions) and accompanied by 274,933 user-simulated queries. The dataset aims to evaluate retrieval tasks across different modality ranges (visual, audio, visual+audio) and query modes (description-based, query-based). FLARE is the first benchmark dataset to jointly explore audiovisual fusion and real user-style queries on long video collections. The dataset files are stored in JSONL format, including segment-level and video-level descriptions and queries. Additionally, the dataset provides code for data construction processes and evaluation tools.
创建时间:
2026-05-10
原始信息汇总
FLARE 数据集概述
📌 基本信息
- 数据集名称:FLARE(Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries)
- 许可证:CC-BY-4.0
- 任务类别:视频-文本到文本(video-text-to-text)
- 标签:基准测试(benchmark)、多模态检索(multimodal retrieval)
- 数据规模:100K < n < 1M
🎯 数据集目的
FLARE 是首个联合探测长视频视听融合(audiovisual fusion)和真实用户风格查询的长视频检索基准,在同一长视频库上同时评估视听融合检索和用户模拟查询。
📊 数据构成
视频来源
- 从 Video-MME 数据集中筛选了 399 个长视频,时长范围为 10–60 分钟,总时长 225.4 小时
- 这些视频被分割为 87,697 个精细剪辑片段
标注内容
每个剪辑片段包含三种类型的文本描述(caption):
- 视觉仅描述(vision-only caption)
- 音频仅描述(audio-only caption)
- 统一视听描述(unified audiovisual caption)
用户模拟查询
共包含 274,933 条用户模拟查询,分为三类:
- 86,350 条视觉仅查询:基于视觉描述改写,并通过在视觉库中的排名第一检索验证
- 135,003 条音频仅查询:基于音频描述改写,并通过在音频库中的排名第一检索验证
- 53,580 条跨模态查询:基于统一描述改写,额外经过硬双模态约束过滤——单独视觉检索失败、单独音频检索失败,只有联合视觉+音频查询才能唯一识别目标片段
📁 数据集文件结构
文本标注文件(datas/ 目录)
数据集包含 9 个 JSONL 格式的标注文件,按评估维度划分:
| 配置名称 | 文件路径 | 记录数 | 内容说明 |
|---|---|---|---|
| clip-caption-vision | datas/clip-caption-vision.jsonl | 87,697 | 片段级视觉描述 |
| clip-caption-audio | datas/clip-caption-audio.jsonl | 87,697 | 片段级音频描述 |
| clip-caption-unified | datas/clip-caption-unified.jsonl | 87,697 | 片段级统一视听描述 |
| clip-query-vision | datas/clip-query-vision.jsonl | 86,350 | 片段级视觉查询 |
| clip-query-audio | datas/clip-query-audio.jsonl | 135,003 | 片段级音频查询 |
| clip-query-unified | datas/clip-query-unified.jsonl | 53,580 | 片段级统一查询 |
| video-caption-vision | datas/video-caption-vision.jsonl | 399 | 视频级视觉描述 |
| video-caption-audio | datas/video-caption-audio.jsonl | 399 | 视频级音频描述 |
| video-caption-unified | datas/video-caption-unified.jsonl | 399 | 视频级统一视听描述 |
视频文件(videos/ 目录)
- 包含 14 个压缩包(flare_videos_000.zip 至 flare_videos_013.zip)
- 解压后合并为 399 个视频 ID 文件夹,每个文件夹包含该源视频的所有分割剪辑片段(.mp4 格式)
- 每个 .mp4 文件已包含音频轨道
🔬 评估维度
FLARE 的评估涵盖两个轴和四个方向:
- 模态范围:视觉(vision)、音频(audio)、视觉+音频(vision+audio)
- 查询类型:基于描述(caption-based)、基于查询(query-based)
- 检索方向:文本→片段、文本→视频
🧪 代码与工具
数据构建流程和评估工具(涵盖 15 种代表性检索器:CLIP、SigLIP2、MetaCLIP-2、VideoCLIP-XL-v2、Qwen3-VL-Emb-8B、MS-CLAP 等)已发布在匿名代码仓库:https://github.com/YqjMartin/FLARE
🍺 演示子集
演示数据集位于:https://huggingface.co/datasets/YqjMartin/FLARE_demo,包含两个随机抽取的三连帧片段及其完整源视频,采用与主发布相同的 JSONL 格式。
搜集汇总
数据集介绍

构建方式
FLARE基准数据集从Video-MME中精心筛选了399段时长在10至60分钟之间的长视频,总计225.4小时,并将其分割为87,697个细粒度片段。每个片段配备了三种模态的文本描述——视觉描述、音频描述以及融合视听信息的统一描述。在此基础上,通过将描述文本改写成更贴近用户真实搜索习惯的查询语句,生成了总量达274,933条的模拟用户查询,其中包括86,350条纯视觉查询、135,003条纯音频查询以及53,580条跨模态查询。跨模态查询经过了严格的双模态硬约束筛选,确保只有同时利用视觉和音频信息才能唯一确定目标片段。
特点
FLARE是首个在长视频检索领域同时探索视听融合检索与真实用户风格查询的基准数据集。其独特之处在于构建了多模态覆盖的评估体系,涵盖视觉、音频及视听融合三种模态范围,并区分基于描述文本与基于用户查询两种检索模式。数据集共包含四个检索方向,即文本到片段、文本到视频的双向交互。此外,跨模态查询的设计使得模型必须真正整合视听信息方能完成检索,为衡量多模态融合能力提供了严苛的测试环境。
使用方法
本数据集以HuggingFace格式发布,包含九个子配置,分别对应不同模态与查询类型的文本标注文件。用户可通过HuggingFace Datasets库加载数据,每个样本包含视频路径及对应的文本描述或查询。视频文件经分卷压缩后提供,解压后形成399个以视频ID命名的文件夹,内含分割后的MP4片段,音频轨道已内嵌其中。评估代码也已公开,支持15种代表性检索模型的测试,用户可直接使用本数据仓库中的文件进行模型评估与对比。
背景与挑战
背景概述
FLARE(Full-Modality Long-Video Audiovisual Retrieval Benchmark with User-Simulated Queries)是一个面向长视频多模态检索的全新基准数据集,由研究团队于近期构建并发布,旨在填补现有视频检索领域在长时长、多模态融合及用户真实查询风格方面的空白。该数据集基于Video-MME筛选出399个时长10至60分钟的长视频,总计225.4小时,并精细切分为87,697个片段,每个片段均配备纯视觉、纯音频及统一视听三种描述,同时生成274,933条模拟用户查询。FLARE的核心研究问题在于如何评估模型在长视频场景下联合利用视听信息的能力,特别是通过设计硬双模态约束查询,使得仅依赖视觉或音频单一通道均无法准确定位目标片段,从而迫使模型真正实现跨模态融合。该基准的提出对推动视频理解、多模态检索与人机交互领域的发展具有重要影响,为长视频的细粒度语义检索提供了标准化评估框架。
当前挑战
FLARE所解决的领域问题核心在于长视频多模态检索中视听融合能力的评估挑战:现有基准多聚焦于短视频或单模态检索,缺乏对长视频中视觉与音频信息动态交互的建模,且用户查询通常为模板化描述,难以反映真实搜索场景中的模糊性与多样性。在构建过程中面临多重挑战:首先,从长视频中自动切分语义连贯的片段需要平衡粒度与完整性,避免破坏叙事逻辑;其次,为每个片段生成高质量的多模态描述(视觉、音频及统一描述)依赖于先进的大模型,但自动化标注可能存在偏差,需设计严格的质量控制流程;最后,模拟用户查询的生成与验证极为复杂,尤其是硬双模态约束查询的筛选需确保视觉与音频单独检索均失败,仅联合检索成功,这对搜索空间的构造与阈值设定提出了高要求,同时需保证查询的自然性与多样性以避免过度拟合特定模型。
常用场景
经典使用场景
FLARE数据集为长视频多模态检索研究提供了全面的基准平台,其核心设计在于将长达10至60分钟的399个视频精细切分为超8.7万个片段,并为每一片段赋予纯视觉、纯听觉及视听融合三种描述性文本。该数据集不仅包含基于描述的检索任务,还引入了模拟用户真实查询风格的文本,共计超过27万条,使研究能够深入探索文本与视频片段之间、文本与完整视频之间的跨模态匹配能力。基于这一设计,FLARE被广泛用于评估和对比各类检索模型在多模态融合、长时依赖捕捉以及查询泛化性方面的表现,成为该领域内一个不可或缺的标准化评测工具。
实际应用
在实际应用中,FLARE数据集为构建精准且高效的多媒体内容管理系统提供了关键的验证工具。视频平台可利用该基准测试来优化其内部搜索引擎,使其能够根据用户描述或模糊记忆快速定位长视频中的具体片段,尤其是在需要同时依赖图像和声音线索的场景下,如体育赛事中的关键判罚分析、影视作品中的场景检索以及多模态会议记录的回溯。此外,该数据集还赋能无障碍技术领域的发展,帮助开发能够为视听觉障碍人群提供更准确实时描述的系统,从而显著提升信息获取的公平性和效率。
衍生相关工作
FLARE数据集的发布催生了一系列旨在提升多模态检索模型性能的衍生研究工作。一方面,研究者们基于其提供的精细标注,着手改进面向视听融合的紧密特征对齐策略,例如设计新的跨模态注意力机制以更好地捕捉视觉运动与听觉事件之间的时序同步性。另一方面,该数据集所包含的用户模拟查询也启发了基于查询重构和数据增强的检索范式,促使多个团队开发了用于生成更具多样性和复杂性的查询的预训练模型。此外,FLARE的评测范式本身也推动了长视频理解领域基准评估标准的升级,后续发表的多个模型均在其排行榜上进行成果展示,从而形成了良性循环的学术竞争与进步。
以上内容由遇见数据集搜集并总结生成



