IGenBench-Dataset

Hugging Face2026-01-15 更新2026-01-16 收录

下载链接：

https://huggingface.co/datasets/Brookseeworld/IGenBench-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

IGenBench是世界上第一个文本到信息图的基准测试数据集，专注于评估生成的视觉信息图是否在事实上正确、数字上准确以及语义上忠实于输入文本和数据。数据集包含600个样本，共计5,259个问题，平均每个样本有8.77个问题，涵盖10种问题类型和30多种图表类型。每个样本以JSON格式存储，包含ID、参考图像URL、文本到图像提示、图表类型以及评估信息。

创建时间：

2026-01-09

原始信息汇总

IGenBench 数据集概述

数据集基本信息

数据集名称: IGenBench Dataset
主要用途: 文本到信息图生成的可靠性评估
核心关注点: 评估生成的信息图在事实准确性、数值精确性以及语义忠实度方面的可靠性
任务类别: 文本到图像
标签: 信息图、文本到图像
许可协议: MIT 许可证
规模类别: 少于1K样本

数据集规模与构成

总样本数: 600
总问题数: 5,259
平均每样本问题数: 8.77
问题类型数量: 10
图表类型数量: 30+

数据格式

每个样本为一个JSON文件，结构如下： json { "id": "样本ID", "reference_image_url": "参考图像URL", "t2i_prompt": "文本到图像提示词", "chart_type": "图表类型", "evaluation": [ { "source": "问题来源（prompt 或 seed）", "ground": "真实情况", "question": "问题", "question_type": "问题类型" } ] }

使用方法

可通过以下代码加载数据集： python from datasets import load_dataset dataset = load_dataset("Brookseeworld/IGenBench-Dataset")

引用信息

如需使用本数据集，请引用： bibtex @misc{tang2026igenbenchbenchmarkingreliabilitytexttoinfographic, title={IGenBench: Benchmarking the Reliability of Text-to-Infographic Generation}, author={Yinghao Tang and Xueding Liu and Boyuan Zhang and Tingfeng Lan and Yupeng Xie and Jiale Lao and Yiyao Wang and Haoxuan Li and Tingting Gao and Bo Pan and Luoxuan Weng and Xiuqi Huang and Minfeng Zhu and Yingchaojie Feng and Yuyu Luo and Wei Chen}, year={2026}, eprint={2601.04498}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2601.04498}, }

相关资源链接

论文: https://arxiv.org/abs/2601.04498
代码: https://github.com/MisterBrookT/IGenBench
项目主页: https://igen-bench.vercel.app/

搜集汇总

数据集介绍

构建方式

在信息可视化领域，评估生成式模型的可靠性至关重要。IGenBench数据集作为首个文本到信息图基准，其构建过程严谨而系统。研究团队精心设计了涵盖30多种图表类型的多样化样本，通过人工标注与结构化数据相结合的方式，为每个样本编制了详尽的评估问题。这些评估问题源自输入提示或原始数据，确保了问题与生成内容的紧密关联。最终，数据集收录了600个样本，包含超过5,000个评估问题，平均每个样本对应近9个问题，形成了多层次、多角度的可靠性评估框架。

特点

该数据集的核心特点在于其专注于信息图生成的信息可靠性评估。它突破了传统文本到图像任务仅关注视觉质量的局限，将评估重点延伸至事实准确性、数值精确性以及语义忠实性。数据集囊括了十种不同类型的问题，从图表元素识别到数据逻辑推理，全面覆盖了信息图可读性与可信度的关键维度。丰富的图表类型与问题类型的组合，为模型评估提供了高泛化性与挑战性，能够深入揭示生成模型在复杂信息传递任务中的潜在缺陷与优势。

使用方法

对于研究人员而言，利用该数据集进行模型评估直观且高效。通过Hugging Face的`datasets`库，可以便捷地加载数据集。每个样本均以结构化的JSON格式存储，包含了参考图像链接、生成提示、图表类型以及核心的评估问题列表。评估问题明确标注了来源、标准答案、问题内容及类型，便于开发者构建自动化或人工评估流程。该数据集可直接用于测试各类文本到图像模型生成信息图的可靠性，其标准化的格式也为后续研究中的方法比较与性能基准建立提供了坚实基础。

背景与挑战

背景概述

随着文本到图像生成技术的飞速发展，生成模型已能创造出视觉上引人注目的信息图表。然而，这些生成内容在事实准确性、数值精确性及语义忠实性方面的可靠性尚未得到系统评估。为此，研究团队于2026年推出了IGenBench数据集，作为全球首个专注于文本到信息图生成的基准测试工具。该数据集由Yinghao Tang等人主导构建，核心研究问题聚焦于评估生成信息图的信息可靠性，旨在填补该领域在量化评估方面的空白，对推动生成式人工智能在数据可视化领域的可信应用具有重要影响力。

当前挑战

该数据集旨在应对文本到信息图生成领域的关键挑战：确保生成结果不仅视觉美观，更需在事实、数值和语义层面高度可靠。具体而言，其构建过程面临多重挑战：首先，需设计一套涵盖丰富图表类型与多样问题形式的评估体系，以全面检验生成内容的多维度准确性；其次，创建高质量、具备明确事实基础的提示词与标准答案对，要求深入的数据标注与严格的交叉验证，以建立可靠的评估基准。这些挑战共同指向了提升生成模型在信息密集型任务中可信度的核心难题。

常用场景

经典使用场景

在信息可视化与生成式人工智能交叉领域，IGenBench数据集作为首个文本到信息图生成的基准测试工具，其经典应用场景集中于评估文本到图像模型生成信息图的可靠性。研究者利用该数据集，系统检验生成信息图在事实准确性、数值精确性及语义忠实性方面的表现，通过涵盖30多种图表类型和10类问题形式的多样化样本，为模型性能提供全面、标准化的评估框架。

解决学术问题

该数据集致力于解决生成式人工智能中信息可靠性的核心学术问题，特别是文本到图像模型在生成复杂信息图表时易出现的数值错误、事实偏差与语义失配等挑战。通过构建包含丰富图表与多维度问题的评估体系，IGenBench为量化模型的信息保真度提供了可重复的基准，推动了生成模型在数据驱动可视化任务中的可信度研究，对提升AI生成内容的准确性与实用性具有深远意义。

衍生相关工作

围绕IGenBench数据集，已衍生出一系列聚焦信息图生成可靠性的经典研究工作。这些工作通常基于该基准开展模型对比与改进，例如开发针对数值一致性与语义对齐的专用评估指标，或设计融合数据感知机制的生成架构。相关研究进一步拓展至多模态可信性评估、图表结构理解等领域，形成了以信息可靠性为核心的技术演进脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集