five

OmniGenBench

收藏
github2025-05-29 更新2025-05-31 收录
下载链接:
https://github.com/emilia113/OmniGenBench
下载链接
链接失效反馈
资源简介:
OmniGenBench是一个包含50多种多样化子任务的新颖且全面的基准测试,用于评估最先进生成模型在感知和认知导向生成任务中的通用性、适应性和推理能力。

OmniGenBench is a novel and comprehensive benchmark containing over 50 diverse sub-tasks, designed to evaluate the versatility, adaptability, and inferential capabilities of state-of-the-art generative models in perception and cognition-oriented generation tasks.
创建时间:
2025-05-24
原始信息汇总

OmniGenBench 数据集概述

基本信息

  • 名称: OmniGenBench: A Benchmark for Omnipotent Multimodal Generation across 50+ Tasks
  • 开发者:
    • Jiayu Wang<sup>1,2*</sup>
    • Yang Jiao<sup>1,2*</sup>
    • Yue Yu<sup>1,2</sup>
    • Tianwen Qian<sup>3</sup>
    • Shaoxiang Chen<sup>4</sup>
    • Jingjing Chen<sup>1,2†</sup>
    • Yu-Gang Jiang<sup>1,2</sup>
  • 机构:
    • <sup>1</sup>Shanghai Key Lab of Intell. Info. Processing, School of CS, Fudan University
    • <sup>2</sup>Shanghai Collaborative Innovation Center on Intelligent Visual Computing
    • <sup>3</sup>School of Computer Science and Technology, East China Normal University
    • <sup>4</sup>Minimax
  • 论文链接: https://arxiv.org/abs/2505.18775
  • Hugging Face链接: https://huggingface.co/datasets/emiliiia/OmniGenBench

数据集特点

  • 任务数量: 50+ diverse sub-tasks
  • 目标: 评估生成模型在感知和认知导向任务中的通用性、适应性和推理能力
  • 构建基础: MegaBench (广泛认可的多模态基准)
  • 数据构建方法:
    • 从MegaBench任务中逆向工程文本查询
    • 人工过滤以确保准确性和挑战性
  • 评估协议:
    • 为感知和认知任务设计专用评估协议
    • 每个任务有定制评估标准
    • 协议与人类判断紧密对齐,确保评估的准确性和一致性

最新动态

  • [2025/05/27]: 论文发布
  • [2025/05/26]: 基准和评估代码即将发布

当前状态

  • [x] 基准数据已发布
  • [ ] 排行榜待发布
  • [ ] 评估代码待发布
搜集汇总
数据集介绍
main_image_url
构建方式
OmniGenBench作为评估生成模型通用性的标杆,其构建过程体现了严谨的学术态度。研究团队基于广受认可的多模态基准MegaBench进行扩展,通过逆向工程从原始任务中提取文本查询,并经过人工筛选确保任务的准确性和挑战性。该数据集涵盖50余项子任务,采用双轨制评估协议,针对感知导向和认知导向任务分别设计专属评价标准,使评估结果与人类判断保持高度一致。这种多层次的构建策略既保证了任务的多样性,又维持了学术评测的严谨度。
特点
该数据集最显著的特征在于其全景式的任务覆盖范围。OmniGenBench突破了传统评测集的单一维度限制,创造性地整合了文本生成、图像合成等跨模态任务,形成包含50多个子任务的综合评估体系。每个子任务都经过精心设计,既包含基础性的感知任务,也涵盖需要复杂推理的认知挑战。数据集特别强调任务难度梯度的设置,通过人类专家过滤机制确保评测项具有足够的区分度,能够有效检验生成模型在不同认知层级的表现。这种多维度的特性设计使其成为当前最全面的生成能力评估平台。
使用方法
研究人员可通过Hugging Face平台获取该基准数据集。使用前需仔细阅读各子任务对应的评估协议,针对感知类任务通常采用自动化指标评估,而认知类任务则建议结合人工评判。数据集提供标准化的输入输出格式,支持主流深度学习框架的直接调用。评测时应遵循任务分组原则,先进行单模态任务测试,再逐步扩展到跨模态场景,以系统评估模型的全方位生成能力。团队即将发布的评估工具包将进一步提升评测效率,实现一键式多维度性能分析。
背景与挑战
背景概述
OmniGenBench是由复旦大学计算机学院智能信息处理重点实验室、上海智能视觉计算协同创新中心以及华东师范大学计算机科学与技术学院的研究团队联合开发的多模态生成基准测试数据集。该数据集于2025年5月正式发布,主要研究人员包括Jiayu Wang、Yang Jiao等。OmniGenBench旨在全面评估生成模型在50多种不同子任务中的通用性、适应性和推理能力,涵盖感知导向和认知导向的生成任务。该数据集基于广泛认可的多模态基准测试MegaBench构建,通过逆向工程生成文本查询并经过人工筛选以确保准确性和挑战性。OmniGenBench的推出为生成模型的研究提供了更为全面和精确的评估工具,对推动多模态生成领域的发展具有重要意义。
当前挑战
OmniGenBench面临的挑战主要包括两个方面:首先,在解决领域问题方面,该数据集需要应对多模态生成任务的多样性和复杂性,尤其是在感知和认知导向任务中如何平衡通用性和专业性。其次,在构建过程中,研究人员需要克服逆向工程生成文本查询的准确性挑战,以及确保人工筛选的标准一致性和客观性。此外,设计针对不同任务的专用评估协议,并使其与人类判断高度一致,也是构建过程中的重要技术难点。
常用场景
经典使用场景
OmniGenBench作为一个涵盖50多种多样化子任务的多模态生成基准,主要用于评估生成模型在感知和认知导向任务中的通用性、适应性和推理能力。该数据集通过逆向工程从MegaBench中提取文本查询,并经过人工过滤以确保任务的多样性和挑战性,使其成为评估生成模型综合性能的理想选择。
衍生相关工作
OmniGenBench的发布催生了一系列相关研究,包括基于其任务设计的生成模型优化方法、跨模态推理技术以及多模态评估协议的改进。这些工作进一步扩展了生成模型的应用范围,并为多模态生成领域的研究提供了新的方向和灵感。
数据集最近研究
最新研究方向
在人工智能领域,多模态生成技术正逐渐成为研究热点,OmniGenBench作为涵盖50余项子任务的全能多模态生成基准,为评估生成模型的通用性和适应性提供了重要平台。该数据集基于广泛认可的多模态基准MegaBench构建,通过逆向工程和人工筛选确保任务的多样性和挑战性,特别关注感知与认知导向任务的平衡。当前研究聚焦于设计专用评估协议,以精确衡量生成模型在复杂场景下的推理能力,其评估标准与人类判断高度一致,为多模态生成模型的性能提升提供了可靠依据。随着生成式AI技术的快速发展,OmniGenBench有望推动跨任务迁移学习和通用生成模型的研究进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作