Bench-377

Hugging Face2025-09-05 更新2025-09-06 收录

下载链接：

https://huggingface.co/datasets/zfx123zfx/Bench-377

下载链接

链接失效反馈

官方服务：

资源简介：

Magic Bench是一个为文本到图像生成模型设计的综合评估数据集，包含377个经过精心挑选的提示，并提供详细的多维度注释，同时支持中文和英文版本以进行跨语言评估。数据集涵盖了多种应用场景，如创意设计、艺术、个性化娱乐等，并包含多种表达形式、元素组合、实体描述等注释维度。数据集结构包括中文和英文提示文本，以及多个注释字段，如应用场景、表达形式、元素组合等。

创建时间：

2025-09-02

原始信息汇总

Magic Bench 数据集概述

数据集简介

Magic Bench 是一个全面的文本到图像生成评估数据集，包含 377 个精心策划的提示词，具有多维度详细标注，并提供中英文双语版本以支持跨语言评估。

数据集特征

提示词数量：377 个评估提示词，涵盖多样化场景
语言支持：中英文双语提示词
标注维度：9 个不同评估维度
场景覆盖：美学设计和艺术摄影场景

数据结构

数据集包含以下字段：

字段	描述
`prompt_text_cn`	中文提示词
`prompt_text_en`	英文提示词
`应用场景`	应用上下文（创意设计/艺术）
`表达形式`	表达形式标注
`要素组合`	元素组合模式
`实体描述`	实体描述类型
`是否有风格`	是否包含风格规范
`是否有美学知识`	是否需要美学知识
`是否有氛围`	是否存在氛围元素

标注维度

应用场景

创意设计：标志设计、角色设计、产品设计等
艺术：摄影、艺术创作等
个性化娱乐：娱乐和个性化内容
影视与故事：影视和故事场景
效率提升：效率和功能设计

表达形式

无：无特定形式要求
代词指代：包含代词引用
否定：包含否定表达
统一性：需要一致元素

要素组合

无：单一元素
反现实：反现实组合
多实体多要素：复杂多实体组合
布局与排版：特定布局要求

实体描述

无：无特定实体描述
属性：属性描述
关系：关系描述
动作状态：动作或状态描述
数量：数量规范

风格规范

是：包含特定风格要求
否：无风格规范

美学知识

是：需要美学理解
否：无需美学知识

氛围元素

是：包含氛围描述
否：无氛围元素

文件组成

magic_bench_dataset.csv：包含所有标注的完整数据集
magic_bench_chinese.csv：中文提示词及标注
magic_bench_english.csv：英文提示词及标注

统计信息

总提示词数：377
美学设计提示词：95（25.2%）
艺术提示词：80（21.2%）
包含风格规范的提示词：241（63.9%）
需要美学知识的提示词：131（34.7%）
包含氛围元素的提示词：22（5.8%）

使用场景

模型评估：文本到图像模型的全面评估
基准比较：跨不同维度比较不同模型
研究：研究不同场景下的模型能力
微调：用作模型改进的训练或验证数据

引用信息

bibtex @dataset{magic_bench_377, title={Magic Bench: A Comprehensive Text-to-Image Generation Evaluation Dataset}, author={zhaofengxuan}, year={2025}, email={zhaofengxuan@bytedance.com}, url={https://huggingface.co/datasets/[your-username]/magic-bench} }

许可证

MIT 许可证

联系方式

zhaofengxuan@bytedance.com

搜集汇总

数据集介绍

构建方式

在文本到图像生成模型的评估领域，Magic Bench数据集通过精心策划的构建流程脱颖而出。该数据集汇集了377个经过严格筛选的提示词，每个提示词均配备了中英文双语版本，并依据九个不同维度进行了系统化标注。构建过程中涵盖了创意设计、艺术创作、影视叙事等多个应用场景，确保了评估内容的全面性与多样性。

特点

Magic Bench数据集展现出多维度评估的显著特征，其核心在于九个精细划分的标注维度，包括应用场景、表达形式、要素组合及实体描述等。数据集特别注重美学设计与艺术摄影场景的覆盖，其中63.9%的提示词包含风格要求，34.7%需要美学知识理解。这种结构化设计为模型能力评估提供了深度洞察。

使用方法

研究者可通过加载CSV格式的数据文件快速接入该数据集，使用pandas库进行灵活的数据操作。支持按语言版本分别调用中文或英文提示词集，并能通过维度过滤功能提取特定类型的评估样本。该数据集适用于模型性能对比、跨语言生成质量分析以及不同应用场景下的能力评估等研究目的。

背景与挑战

背景概述

文本到图像生成技术作为人工智能领域的前沿研究方向，近年来受到学术界与工业界的广泛关注。Magic Bench数据集由字节跳动研究人员于2025年创建，专门针对多语言文本到图像生成模型的评估需求而设计。该数据集包含377个精心构建的提示文本，涵盖创意设计、艺术创作、影视叙事等多个应用场景，通过九维标注体系实现对生成模型能力的全面评估。其双语特性支持中英文跨语言评估，为文本到图像生成领域的标准化评测提供了重要基础。

当前挑战

在文本到图像生成领域，模型需要准确理解复杂提示中的语义层次、美学要求和跨文化表达，这对生成质量的一致性提出了严峻挑战。Magic Bench数据集构建过程中面临多维度标注体系的建立难题，包括如何平衡提示文本的多样性与代表性，确保中英文版本在语义和文化层面的对等性，以及定义可量化的美学评估标准。此外，保持标注维度间的正交性，避免评价指标的重叠与冲突，也是数据集设计中的重要技术挑战。

常用场景

经典使用场景

在文本生成图像的研究领域中，Magic Bench数据集通过377个精心设计的提示词，为模型评估提供了多维度的测试基准。这些提示词覆盖了创意设计、艺术创作、影视叙事等多样化场景，每个提示都标注了表达形式、要素组合和实体描述等特征，使得研究者能够系统性地检验模型在复杂语义理解和视觉表达能力上的表现。

实际应用

在实际应用层面，Magic Bench被广泛用于商业图像生成系统的质量检验。设计公司借助其双语提示词库测试模型在品牌标识设计、产品概念可视化等方面的实用性；娱乐产业则通过其影视类提示词评估模型在故事场景构建中的表现。这些应用显著提升了生成内容在真实业务场景中的可用性和准确性。

衍生相关工作

基于该数据集衍生的经典研究包括跨语言生成一致性分析、多模态评估指标构建等方向。许多研究者利用其标注体系开发了新型评估指标，如风格保真度计算模型和语义对齐度测量方法。这些工作不仅深化了对生成模型能力的理解，还推动了文本生成图像评估标准化的进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集