Daily-Omni

Name: Daily-Omni
Creator: Authors
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://github.com/Lliar-liar/Daily-Omni

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个视听问答的基准，包含了684个日常生活场景的视频，这些视频在音视频信息上都非常丰富。数据集跨越6大主要任务，包含了1197个多项选择题型的问答对。此外，还提供了一个问答生成流程，以便进行高效的人工评估和可扩展性研究。该数据集的规模包括684个视频和1197个问答对，其任务重点在于视听问答。

This dataset is a benchmark for audio-visual question answering (AVQA). It contains 684 videos depicting daily-life scenarios, which are rich in both audio and visual information. The dataset spans six core tasks and includes 1,197 multiple-choice question-answer pairs. Additionally, a question-answer generation pipeline is provided to support efficient human evaluation and scalability research. With a scale of 684 videos and 1,197 QA pairs, this dataset focuses on audio-visual question answering tasks.

提供机构：

Authors

搜集汇总

数据集介绍

背景与挑战

背景概述

Daily-Omni是一个音频-视觉跨模态推理数据集，专注于时间对齐任务，提供QA生成工具和多种模型的评估脚本，支持开源和闭源模型的性能比较。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集