MixEval-X

Hugging Face2024-10-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/MixEval/MixEval-X

下载链接

链接失效反馈

官方服务：

资源简介：

MixEval-X数据集是一个多模态基准测试集，包含从图像、视频、音频到文本的多种转换任务。数据集规模在1K到10K之间，适用于评估和训练大型语言模型和多模态模型。

创建时间：

2024-10-08

原始信息汇总

MixEval-X 数据集概述

基本信息

许可证: Apache 2.0
任务类别:
- 图像到文本
- 视频文本到文本
- 音频分类
- 文本生成
- 文本到音频
- 文本到图像
- 文本到视频
- 文本到文本生成
语言: 英语
标签:
- 基准测试
- 任意到任意
- 多模态
- 大型语言模型评估
- 大型语言模型
- 动态基准测试
- 基准测试混合
- 大型多模态模型
- 大型多模态模型
- 大型语言模型训练
- 基础模型
- 基准测试套件
- 机器学习
- 深度学习
数据集名称: MixEval-X
数据集规模: 1K < n < 10K

配置详情

image2text:
- 数据文件:
  - free_form: tasks_jsonl/image2text/free-form.jsonl
  - multiple_choice: tasks_jsonl/image2text/multiple-choice.jsonl
  - free_form_hard: tasks_jsonl/image2text/free-form-hard.jsonl
  - multiple_choice_hard: tasks_jsonl/image2text/multiple-choice-hard.jsonl
video2text:
- 数据文件:
  - free_form: tasks_jsonl/video2text/free-form.jsonl
  - multiple_choice: tasks_jsonl/video2text/multiple-choice.jsonl
  - free_form_hard: tasks_jsonl/video2text/free-form-hard.jsonl
  - multiple_choice_hard: tasks_jsonl/video2text/multiple-choice-hard.jsonl
audio2text:
- 数据文件:
  - free_form: tasks_jsonl/audio2text/free-form.jsonl
  - free_form_hard: tasks_jsonl/audio2text/free-form-hard.jsonl
text2image:
- 数据文件:
  - all: tasks_jsonl/text2image/tasks.jsonl
text2video:
- 数据文件:
  - all: tasks_jsonl/text2video/tasks.jsonl
text2audio:
- 数据文件:
  - all: tasks_jsonl/text2audio/tasks.jsonl
text2action:
- 数据文件:
  - all: tasks_jsonl/text2action/tasks.jsonl
image2action:
- 数据文件:
  - all: tasks_jsonl/image2action/tasks.jsonl
open_ended:
- 数据文件:
  - image2text: tasks_jsonl/openended/open-ended-image2text.jsonl
  - video2text: tasks_jsonl/openended/open-ended-video2text.jsonl
  - audio2text: tasks_jsonl/openended/open-ended-audio2text.jsonl

搜集汇总

数据集介绍

构建方式

MixEval-X数据集的构建基于多样化的输入输出模态组合，涵盖了图像、视频、音频和文本等多种数据类型。数据集的构建过程严格遵循真实世界任务分布，确保每个任务的设计与实际应用场景高度契合。通过动态基准池的机制，数据集能够不断自我优化和扩展，以适应不断变化的模型评估需求。数据集的每个子集均经过精心设计，包含自由形式、多项选择等不同任务类型，以全面评估模型的性能。

特点

MixEval-X数据集的特点在于其多模态性和动态性。它不仅涵盖了八种不同的输入输出模态组合，还通过真实世界任务分布确保了评估的广泛性和实用性。数据集的设计注重一致性和高标准，确保在不同模态下的评估结果具有可比性。此外，数据集的动态基准池机制使其能够不断更新和优化，保持与前沿模型评估需求同步。数据集还提供了开放式的多轮、多输入和交错任务，进一步增强了评估的复杂性和挑战性。

使用方法

使用MixEval-X数据集进行模型评估时，用户可以通过Hugging Face的`load_dataset`函数加载特定模态的基准数据。对于需要输入媒体文件的任务，用户需手动下载`inputs.zip`文件以获取相关资源。评估过程中，用户需按照指定的格式准备模型输出，并通过提供的评分命令获取评估结果。数据集支持自定义评分代码，确保评估过程的公平性和灵活性。通过这种方式，用户能够全面、高效地评估模型在多模态任务中的表现。

背景与挑战

背景概述

MixEval-X数据集于2024年由Jinjie Ni等研究人员提出，旨在解决多模态模型评估中的复杂性和多样性问题。该数据集涵盖了图像到文本、视频到文本、音频到文本等多种输入输出模态组合，并基于真实世界任务分布构建。作为首个任意到任意的多模态基准，MixEval-X通过动态调整和自优化机制，确保了评估的全面性和高效性。其研究背景源于对大型语言模型和多模态模型评估标准不统一的挑战，MixEval-X的提出为相关领域提供了统一的评估框架，推动了多模态模型研究的深入发展。

当前挑战

MixEval-X在构建和应用过程中面临多重挑战。首先，多模态任务的复杂性要求数据集能够准确反映真实世界任务的分布，这对数据采集和标注提出了极高的要求。其次，不同模态之间的评估标准难以统一，如何确保跨模态评估的一致性和公平性成为核心问题。此外，数据集的动态性和自优化机制虽然提升了评估的灵活性，但也增加了数据管理和更新的复杂性。最后，开放性子集的多轮、多输入和交错任务设计，使得模型评估需要依赖高效的评判模型或人工评估，进一步增加了评估的难度和成本。

常用场景

经典使用场景

MixEval-X数据集在多种模态转换任务中展现了其独特的价值，尤其是在图像到文本、视频到文本、音频到文本等跨模态任务中。研究人员可以通过该数据集评估模型在处理复杂多模态数据时的表现，特别是在自由形式和多项选择题型中的表现。数据集的分层结构设计使得用户能够根据具体需求选择不同难度的任务，从而全面测试模型的性能。

衍生相关工作

MixEval-X的发布推动了多模态模型评估领域的研究进展。基于该数据集，许多经典工作得以展开，例如LMMs-Eval工具的开发，使得用户能够通过简单的命令运行MixEval-X任务。此外，该数据集还激发了学术界对多模态模型评估标准的进一步探讨，促进了相关技术的创新和发展。

数据集最近研究