OmniAgentBench
收藏OmniAgentBench 数据集概述
数据集简介
OmniAgentBench 是一个多模态基准测试数据集,旨在评估多模态大语言模型智能体在输入来自不同模态时,处理现实规划任务的鲁棒性。每个样本均包含文本、图像和语音音频。
核心属性
- 语言:英语
- 许可证:MIT
- 任务类别:视觉问答、问答
- 标签:多模态、基准测试、语音、视觉、规划、智能体
- 数据规模:小于1K样本
- 配置名称:default
- 数据文件:
data/dataset_multimodal.parquet(测试集)
数据规模与构成
- 总样本量:700个样本。
- 每个样本均包含:文本、图像和语音音频。
样本字段说明
| 字段 | 描述 |
|---|---|
sample_id |
唯一标识符(例如 mpcc_flight_easy_1) |
task |
任务类型:flight(航班规划)、calendar(日历规划)、meeting(会议规划) |
difficulty |
难度等级:easy(简单)、medium(中等)、hard(困难) |
text_instruction |
完整的文本提示(包含输出格式说明) |
spoken_text |
纯自然语言问题(与音频内容一致) |
gold_answer |
真实答案(包含 best 和 feasible 计划的JSON) |
audio_file |
WAV 文件名 → 位于 mpcc/ 文件夹 |
image_file_1 |
第一张图片文件名 → 位于 images/mpcc/ 文件夹 |
image_file_2 |
第二张图片文件名 → 位于 images/mpcc/ 文件夹 |
任务与难度分布
| 任务 | 简单 | 中等 | 困难 | 总计 |
|---|---|---|---|---|
| 航班规划 | 300 | 50 | 50 | 400 |
| 日历规划 | 50 | 50 | 50 | 150 |
| 会议规划 | 50 | 50 | 50 | 150 |
| 总计 | 400 | 150 | 150 | 700 |
文件结构
数据集文件结构如下:
omniagentbench/OmniAgentBench/ ├── data/ │ └── dataset_multimodal.parquet # 700行数据(可在Data Studio中查看) ├── dataset/mpcc/ │ ├── dataset.json # 700个样本的JSON格式 │ └── dataset_multimodal.json # 相同内容,JSON格式 ├── images/mpcc/ │ └── *.jpg # 每个样本2张图片 └── mpcc/ └── *.wav # 每个样本1个音频文件
多模态输入
每个样本以多种输入格式提供相同的规划任务:
- 文本:
text_instruction是包含JSON输出格式的完整提示。spoken_text是纯自然语言问题。 - 图像:
image_file_1和image_file_2是两张时间表/日程截图(航班时刻表、参与者日历或会议室地图)。解决任务需要两张图片。 - 音频:
audio_file是spoken_text的TTS语音,使用 Qwen3-TTS 合成。
评估模式
- 文本 + 图像(标准视觉问答):
text_instruction+ 图像 →gold_answer - 语音 + 图像(语音接地):
audio_file+ 图像 →gold_answer - 文本与语音差距:在同一批样本上运行两种模式,以衡量语音输入对性能的影响。
数据来源
本数据集基于 MPCC(多模态规划与协调挑战)数据集构建。
引用
如需引用,请使用以下BibTeX格式: bibtex @misc{omniagentbench2026, title={OmniAgentBench: Measuring Multimodal Agent Robustness Under Wild Conditions}, author={Fakhar, Hoda and others}, year={2026}, url={https://github.com/hodfa840/OmniAgentBench} }
相关链接
- 代码仓库:https://github.com/hodfa840/OmniAgentBench
- 组织主页:https://huggingface.co/omniagentbench
- 原始MPCC数据集:https://huggingface.co/datasets/jyyyyy67/MPCC




