AV-Odyssey

github2024-12-04 更新2024-12-06 收录

下载链接：

https://github.com/AV-Odyssey/AV-Odyssey

下载链接

链接失效反馈

官方服务：

资源简介：

AV-Odyssey是一个综合评估基准，旨在探索多模态大语言模型（MLLMs）是否真正理解视听信息。该基准包含26个不同任务和4,555个精心设计的问题，每个问题都包含文本、视觉和音频组件。所有数据均为新收集并由人工标注，不来自任何现有的视听数据集。AV-Odyssey Bench展示了三个主要特征：1. 全面的音频属性；2. 广泛的领域；3. 交织的文本、音频和视觉组件。

AV-Odyssey is a comprehensive evaluation benchmark aimed at investigating whether multimodal large language models (MLLMs) truly comprehend audio-visual information. This benchmark encompasses 26 distinct tasks and 4,555 meticulously designed questions, each integrating textual, visual, and audio components. All data is newly collected and manually annotated, and not derived from any existing audio-visual datasets. The AV-Odyssey Bench exhibits three core characteristics: 1. Comprehensive audio attributes; 2. Broad domains; 3. Intertwined textual, audio, and visual components.

创建时间：

2024-11-20

原始信息汇总

AV-Odyssey 数据集概述

数据集简介

AV-Odyssey 是一个用于评估多模态大语言模型（MLLMs）是否真正理解视听信息的全面基准。该数据集包含26个不同任务和4,555个精心设计的问题，涵盖文本、视觉和音频组件。所有数据均为全新收集和人工标注，不来自任何现有视听数据集。

数据集特点

全面的音频属性
广泛的领域
交错的文本、音频和视觉组件

数据集示例

请访问项目页面 https://av-odyssey.github.io/ 以探索更多示例。

数据集使用许可

AV-Odyssey 仅用于学术研究，禁止任何形式的商业使用。所有视频的版权属于视频所有者。如发现侵权行为，请联系 libohao1998@gmail.com，我们将立即删除。未经事先批准，不得以任何形式分发、发布、复制、传播或修改 AV-Odyssey 的全部或部分内容。

数据集获取

请发送电子邮件至 libohao1998@gmail.com 获取数据集。

评估流程

运行 AV-Odyssey 评估

从 🤗 AV-Odyssey Dataset 下载 AV-Odyssey 数据，并将其放入指定文件夹。
下载被评估模型的预训练权重，并安装所有必需的包。
运行以下命令进行评估：

python evaluation.py --model videollama

结果将收集到 avlm_results 文件夹中。

排行榜

欢迎为 AV-Odyssey 排行榜贡献您的优秀 MLLMs，排行榜地址为 https://huggingface.co/spaces/AV-Odyssey/AV_Odyssey_Bench_Leaderboard。

引用

如需引用该数据集，请使用以下 BibTeX 格式： bibtex @misc{gong2024avodysseybenchmultimodalllms, title={AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?}, author={Kaixiong Gong and Kaituo Feng and Bohao Li and Yibing Wang and Mofan Cheng and Shijia Yang and Jiaming Han and Benyou Wang and Yutong Bai and Zhuoran Yang and Xiangyu Yue}, year={2024}, eprint={2412.02611}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2412.02611}, }

搜集汇总

数据集介绍

构建方式

在多模态大语言模型（MLLMs）迅速发展的背景下，AV-Odyssey数据集应运而生，旨在评估这些模型对音频和视觉信息的理解能力。该数据集由26种不同任务和4,555个精心设计的问题组成，涵盖文本、视觉和音频组件。所有数据均为全新收集并由人类标注，而非源自任何现有音频-视觉数据集。这种构建方式确保了数据集的独特性和高质量，为研究者提供了一个全面且细致的评估平台。

特点

AV-Odyssey数据集的显著特点包括其全面性、广泛性和多模态性。首先，数据集涵盖了广泛的音频属性，确保了对音频信息的全面评估。其次，数据集跨越多个领域，增强了其应用的广泛性。最后，数据集巧妙地融合了文本、音频和视觉组件，这种多模态的交织设计使得评估更加复杂和真实，从而更准确地反映模型的实际表现。

使用方法

使用AV-Odyssey数据集进行评估时，用户首先需从Hugging Face平台下载数据集，并将其存储在指定文件夹中。接着，下载被评估模型的预训练权重，并安装所有必要的依赖包。随后，通过运行`evaluation.py`脚本，指定模型名称，即可开始评估过程。评估结果将自动收集并存储在`avlm_results`文件夹中，便于后续分析和比较。此外，用户还可以通过贡献自己的模型结果来更新AV-Odyssey的排行榜，从而促进该领域的持续发展。

背景与挑战

背景概述

AV-Odyssey数据集由Kaixiong Gong等人于2024年创建，旨在评估多模态大语言模型（MLLMs）对音视频信息的理解能力。该数据集的核心研究问题聚焦于MLLMs在处理简单音视频任务时的表现，如判断两个声音的音量或音调高低。AV-Odyssey Bench包含了26种不同任务和4,555个精心设计的问题，涵盖文本、视觉和音频组件，所有数据均为全新收集和人工标注，未使用任何现有音视频数据集。该数据集的发布标志着对MLLMs在音视频理解领域能力的全面评估，对推动多模态学习研究具有重要意义。

当前挑战

AV-Odyssey数据集面临的挑战主要集中在两个方面。首先，构建过程中需克服音视频数据的复杂性和多样性，确保数据集的全面性和代表性。其次，评估MLLMs在处理音视频信息时的准确性和鲁棒性，特别是对于那些看似简单但对模型而言具有挑战性的任务。此外，数据集的版权和使用限制也增加了其应用的复杂性，要求研究者在遵守相关规定的前提下进行数据的使用和分析。

常用场景

经典使用场景

在多模态大语言模型（MLLMs）的研究领域，AV-Odyssey数据集被广泛用于评估模型对音频和视觉信息的理解能力。该数据集通过包含26种不同任务和4,555个精心设计的问题，涵盖了文本、视觉和音频组件，为研究人员提供了一个全面的基准。经典的使用场景包括测试模型在区分声音音量和音调等基本任务上的表现，以及在更复杂的音频-视觉交互任务中的应用。

解决学术问题

AV-Odyssey数据集解决了多模态大语言模型在理解和处理音频-视觉信息方面的关键学术问题。通过提供一个包含多种音频属性和广泛领域的数据集，AV-Odyssey帮助研究人员识别和改进模型在处理简单但重要的音频-视觉任务上的不足。这不仅推动了多模态学习的理论发展，还为实际应用中的模型优化提供了宝贵的数据支持。

衍生相关工作

AV-Odyssey数据集的发布激发了大量相关研究工作，特别是在多模态学习和音频-视觉信息处理领域。例如，基于AV-Odyssey的评估结果，研究人员开发了新的模型和算法，以提高模型在音频-视觉任务中的表现。此外，该数据集还被用于验证和改进现有的多模态大语言模型，如GPT-4o和Gemini，推动了这些模型在实际应用中的性能提升和功能扩展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集