Omni-Cloze

Hugging Face2026-03-30 更新2026-03-31 收录

下载链接：

https://huggingface.co/datasets/BoJack/Omni-Cloze

下载链接

链接失效反馈

官方服务：

资源简介：

Omni-Cloze 是一个统一的基准测试数据集，用于评估音频、视觉以及视听混合场景下的详细描述生成能力。该数据集涵盖9个主要领域和47个子类别，包括教育、娱乐、体育、新闻、科学和生活方式等多样主题，包含2,000个视频片段和70,000个细粒度的完形填空空白。数据集的核心元数据文件为`omni_cloze.jsonl`，其中包含2,320个视听文件及其对应的完形填空问题。用户需要通过模型生成详细描述并保存到`predicted_caption`字段中，然后使用提供的脚本进行评估。该数据集适用于多模态详细描述生成任务的评估和研究。

创建时间：

2026-03-17

搜集汇总

数据集介绍

构建方式

在多媒体内容理解领域，构建一个能够全面评估模型对音频、视觉及视听融合内容细粒度描述能力的基准至关重要。Omni-Cloze数据集通过设计填空式多项选择代理任务，将详细描述生成问题转化为结构化评估框架。其构建过程涉及从九个主要领域及四十七个子类别中精心挑选两千个视频片段，涵盖教育、娱乐、体育、新闻、科学及生活方式等多样化主题。每个视频片段均被标注了细粒度的填空空白，总计达七万个，这些空白要求模型基于对音频、视觉或两者结合的内容理解来准确填充，从而形成统一的跨模态评估基准。

使用方法

使用Omni-Cloze数据集进行评估，首先需准备视频数据，将提供的分卷压缩文件解压至指定目录。随后，用户需利用自有模型对数据集中的音频-视觉文件生成详细描述，并将预测结果以`predicted_caption`字段形式存入核心元数据文件`omni_cloze.jsonl`中。评估阶段通过调用大型语言模型，将生成的详细描述映射到具体的填空空白上，执行脚本即可计算模型在各项任务上的准确率。整个过程支持并行处理，并可展示不同子类别的性能细分，为模型在跨模态细粒度描述能力上的诊断与比较提供了标准化流程。

背景与挑战

背景概述

在多媒体内容理解领域，生成兼具广度和深度的详细描述是一项核心挑战。Omni-Cloze基准数据集于2026年由相关研究团队提出，旨在构建一个统一的评估框架，用以衡量模型在纯音频、纯视觉及视听融合场景下的细粒度描述能力。该数据集涵盖了教育、娱乐、体育、新闻、科学与生活方式等九大主要领域及其下属的四十七个子类别，共包含两千个视频片段与七万个精细设计的完形填空式问题。其核心研究问题聚焦于如何超越传统的整体性评估，通过代理任务的形式，精准量化模型对多媒体内容中具体细节的感知与描述准确性，从而推动跨模态理解技术向更精细、更鲁棒的方向演进。

当前挑战

该数据集致力于解决的领域挑战在于，传统的多媒体描述评估方法往往侧重于整体内容的概括性匹配，难以精确衡量模型对场景中特定实体、动作、属性及关系的细粒度感知能力。Omni-Cloze通过将详细描述任务重构为完形填空式的多项选择代理任务，直接针对模型在复杂、多样的真实世界内容中定位与理解具体细节的精确性提出挑战。在构建过程中，研究团队面临的主要挑战包括：如何设计一套能够广泛覆盖多领域、多模态内容的统一评估范式；如何确保七万个完形填空问题在语义上的精确性与多样性，以全面检验模型的细节理解能力；以及如何构建一个高效、可靠的自动化评估流程，将模型生成的自由文本描述准确映射到预设的细粒度选项上，从而保证评估结果的客观性与可复现性。

常用场景

解决学术问题

Omni-Cloze数据集主要解决了跨模态详细描述任务中评估标准不统一、缺乏细粒度度量指标的学术难题。通过构建结构化填空问题，它将开放式的描述生成转化为可量化的选择任务，为研究者提供了稳定、可复现的评测框架。这一创新不仅促进了音频、视觉及视听融合模型在细粒度理解方面的比较研究，也为多模态人工智能的理论发展与性能优化奠定了实证基础。

实际应用

在实际应用中，Omni-Cloze数据集能够支持智能视频摘要、无障碍内容访问以及多媒体内容检索等场景。例如，在自动生成教育视频的详细字幕时，模型可利用该数据集进行训练与验证，确保输出描述准确涵盖视觉动作与音频信息；在新闻或体育节目分析中，它有助于开发能够捕捉事件细节的辅助系统，提升内容理解的深度与广度，满足行业对高精度多模态分析工具的需求。

数据集最近研究