AV-Odyssey
收藏AV-Odyssey 数据集概述
数据集简介
AV-Odyssey 是一个用于评估多模态大语言模型(MLLMs)是否真正理解视听信息的全面基准。该数据集包含26个不同任务和4,555个精心设计的问题,涵盖文本、视觉和音频组件。所有数据均为全新收集和人工标注,不来自任何现有视听数据集。
数据集特点
- 全面的音频属性
- 广泛的领域
- 交错的文本、音频和视觉组件
数据集示例
请访问项目页面 https://av-odyssey.github.io/ 以探索更多示例。
数据集使用许可
AV-Odyssey 仅用于学术研究,禁止任何形式的商业使用。所有视频的版权属于视频所有者。如发现侵权行为,请联系 libohao1998@gmail.com,我们将立即删除。未经事先批准,不得以任何形式分发、发布、复制、传播或修改 AV-Odyssey 的全部或部分内容。
数据集获取
请发送电子邮件至 libohao1998@gmail.com 获取数据集。
评估流程
运行 AV-Odyssey 评估
-
从 🤗 AV-Odyssey Dataset 下载 AV-Odyssey 数据,并将其放入指定文件夹。
-
下载被评估模型的预训练权重,并安装所有必需的包。
-
运行以下命令进行评估:
python evaluation.py --model videollama
结果将收集到 avlm_results 文件夹中。
排行榜
欢迎为 AV-Odyssey 排行榜贡献您的优秀 MLLMs,排行榜地址为 https://huggingface.co/spaces/AV-Odyssey/AV_Odyssey_Bench_Leaderboard。
引用
如需引用该数据集,请使用以下 BibTeX 格式: bibtex @misc{gong2024avodysseybenchmultimodalllms, title={AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?}, author={Kaixiong Gong and Kaituo Feng and Bohao Li and Yibing Wang and Mofan Cheng and Shijia Yang and Jiaming Han and Benyou Wang and Yutong Bai and Zhuoran Yang and Xiangyu Yue}, year={2024}, eprint={2412.02611}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2412.02611}, }




