Slides-Align1.5k
收藏arXiv2026-01-14 更新2026-01-16 收录
下载链接:
https://github.com/YunqiaoYang/SlidesGen-Bench
下载链接
链接失效反馈官方服务:
资源简介:
Slides-Align1.5k是由香港中文大学和商汤科技联合构建的幻灯片生成评估数据集,包含1500条经过人工偏好对齐的多场景数据。该数据集覆盖九种主流生成系统在七种应用场景(如品牌推广、商业计划等)下的输出成果,数据来源包括30k+原始人类幻灯片和标准化文档。通过GPT-4o标注和双重维度(主题/功能)筛选构建,采用多阶段质量验证流程。该数据集旨在解决幻灯片生成系统在内容保真度、美学质量和可编辑性三个维度的量化评估难题,为自动化演示文稿生成研究提供基准支持。
提供机构:
香港中文大学·多媒体实验室; 商汤科技研究院; CPII under InnoHK; 上海人工智能实验室
创建时间:
2026-01-14
原始信息汇总
SlidesGen-Bench 数据集概述
数据集基本信息
- 数据集名称: SlidesGen-Bench
- 核心定位: 一个用于评估AI生成演示文稿(幻灯片)的综合基准
- 关联数据集: Slides-Align(用于校准评估的人类偏好数据集)
- 论文地址: https://arxiv.org/abs/2601.09487
- 数据集主页: https://slidesgenbench.yqy314.top/
- Slides-Align数据集地址: https://huggingface.co/datasets/Yqy6/Slides-Align
- 许可证: MIT License
核心评估原则
- 🌐 通用性: 独立于生成方法的统一视觉领域评估框架。
- 📊 可量化: 在内容、美观度和可编辑性维度上提供可复现的指标。
- ✅ 可靠性: 通过Slides-Align数据集实现与人类偏好的高相关性。
评估维度与方法
📝 内容评估
- 方法: QuizBank(基于测验的方法)
- 脚本:
quantitative_eval.py --eval-mode content_only - 流程:
- 运行内容评估脚本。
- 使用
calculate_quiz_accuracy.py计算测验准确率并生成结果。
🎨 美观度评估
计算美学指标
- 脚本:
aesthetics_metrics.py - 核心指标:
figure_ground_contrast: 使用WCAG标准衡量前景/背景对比度。color_harmony: 计算与和谐色彩模板的距离。colorfulness: 使用Hasler & Süsstrunk方法衡量色彩丰富度。subband_entropy: 通过子带分解分析视觉复杂度。visual_hrv: 基于子带熵的视觉心率变异性(用于评估时间一致性)。
- 使用示例:
python eval/quantitative_eval.py --eval-mode aesthetics_only --products Your_product
LLM作为评判者方法
- LLM评分: 语言模型直接评分。
- LLM竞技场: 带有ELO排名的成对比较。
- 详细文档: 参见
docs/LLM_EVALUATION.md。
✏️ 演示文稿可编辑性智能评估
- 方法: 使用淘汰评估策略评估生成后演示文稿的可编辑和修改能力。
- 参考协议:
docs/pei.md。
Slides-Align 数据集详情
数据集统计
- 📊 总排名数: 1,326
- 🏢 评估的产品数量: 9
- 📂 场景类别数量: 7
- 💡 主题数量: 187
已评估的产品列表
| 产品 | 提供商 | 描述 |
|---|---|---|
| Gamma | Gamma.com.ai | AI演示文稿制作工具 |
| NotebookLM | 带有演示文稿生成功能的AI笔记本 | |
| Kimi-Standard | Moonshot AI | Kimi(标准模式) |
| Kimi-Smart | Moonshot AI | Kimi(智能模式) |
| Kimi-Banana | Moonshot AI | Kimi(Banana模板) |
| Skywork | SKYWORK.ai | Skywork AI |
| Skywork-Banana | SKYWORK.ai | Skywork(Banana模板) |
| Zhipu | Zhipu AI | 演示文稿生成器 |
| Quark | Quark AI | Quake演示文稿工具 |
场景类别
| 类别 | 主题数量 | 描述 |
|---|---|---|
topic_introduction |
93 | 通用主题介绍(AI、气候变化、5G等) |
product_launch |
23 | 产品发布公告 |
personal_statement |
20 | 个人陈述和自我介绍 |
brand_promote |
15 | 品牌推广和营销 |
course_preparation |
15 | 教育课程材料 |
work_report |
13 | 工作进度报告 |
business_plan |
8 | 商业计划演示文稿 |
数据格式与使用
-
标注格式示例: json { "results": [ { "product": "NotebookLM", "difficulty": "topic_introduction", "topic": "FinTech", "rank": 1 } ] }
-
加载方式: python from datasets import load_dataset dataset = load_dataset("Yqy6/Slides-Align")
评估流程概述
- 幻灯片生成与预处理: 将所有幻灯片格式转换为图像以确保统一的评估框架。
- 内容评估: 使用QuizBank方法评估内容质量。
- 美观度评估: 通过计算美学指标和/或LLM评判方法评估视觉质量。
- 可编辑性评估: 使用PEI淘汰策略评估演示文稿的后期编辑能力。
扩展评估至自定义产品
用户可以通过以下步骤将自己的幻灯片生成产品加入基准进行评估:
- 在
eval/eval_config.py的PRODUCTS字典中配置产品设置。 - 按照指定的目录结构组织生成的幻灯片。
- 使用预处理脚本将幻灯片转换为图像。
- 运行评估脚本对产品进行内容、美观度或全面评估。
技术依赖与配置
- 布局分析: 使用PaddleOCR的PP-DocLayout_plus-L模型进行文档布局检测。
- 格式转换: 使用LibreOffice进行PPTX到图像的转换。
- 配置方式: 可通过配置文件
eval/eval_config.py或命令行参数进行设置。
搜集汇总
数据集介绍

构建方式
在自动幻灯片生成系统评估领域,构建一个与人类偏好对齐的数据集对于验证评估指标的可靠性至关重要。Slides-Align1.5k数据集正是为此目的而设计,其构建过程始于从多个来源收集超过30,000张人工制作的幻灯片和模板,并应用长度过滤以确保内容的代表性。随后,利用python-pptx库提取文本内容,并借助GPT-4o对幻灯片的主题和用途进行标注,以覆盖多样化的主题和实际场景。最终,数据集涵盖了来自九个主流生成系统在七个不同场景下生成的幻灯片,通过人工标注的方式收集了人类对幻灯片美学质量的偏好排序,从而为评估指标提供了可靠的人类对齐基准。
特点
Slides-Align1.5k数据集的核心特点在于其广泛覆盖性和人类偏好对齐性。数据集不仅包含了来自多种生成系统的幻灯片输出,还通过精心设计的主题和场景划分,确保了内容在主题和功能上的多样性。这种多样性使得数据集能够全面评估生成系统在不同上下文中的表现。更重要的是,数据集通过人工标注的方式收集了人类对幻灯片美学质量的偏好排序,为计算美学指标提供了可靠的人类对齐基准,从而弥补了以往评估方法中人类偏好校准不足的缺陷。
使用方法
Slides-Align1.5k数据集主要用于验证幻灯片生成评估指标的可靠性和人类对齐性。研究人员可以基于该数据集,将自动评估指标(如计算美学分数)与人类偏好排序进行相关性分析,以检验指标的有效性。具体而言,数据集中的幻灯片对可用于计算指标得分,并与人类标注的偏好排名进行比较,通过斯皮尔曼相关系数等统计方法衡量指标与人类判断的一致性。这种使用方式有助于推动评估方法从主观代理向客观、可重复的量化指标演进。
背景与挑战
背景概述
随着大语言模型的快速发展,自动化幻灯片生成技术涌现出代码驱动布局、图像中心合成等多种范式,然而对这些异构系统的评估长期面临挑战。为此,香港中文大学多媒体实验室与商汤科技的研究团队于2025年提出了SlidesGen-Bench基准,并构建了配套的Slides-Align1.5k数据集。该数据集旨在建立一个通用、可量化且可靠的评估框架,通过将最终输出统一视为视觉渲染,规避了对底层生成方法的依赖,从而为核心研究问题——如何建立与人类判断高度一致的自动化幻灯片生成评估体系——提供了关键的数据支撑。该工作通过构建涵盖九大主流生成系统、七个场景的人类偏好对齐数据,显著推动了智能演示合成领域的标准化评估进程。
当前挑战
该数据集致力于解决自动化幻灯片生成领域的系统性评估挑战。首要挑战在于评估范式的统一性,现有方法或依赖难以获取的参考文件,或受限于大语言模型评判的随机性与偏差,难以在不同架构间提供可比分数。其次,构建过程面临多重困难:需从超过三万份人类幻灯片中筛选并标注,确保主题与用途的多样性;需设计严谨的QuizBank构建流程以评估内容保真度;更需建立计算美学指标量化视觉设计的和谐度、吸引力、可用性与节奏感,并最终通过大规模人工标注验证这些自动化指标与人类偏好的对齐性,此过程对数据质量与标注一致性提出了极高要求。
常用场景
经典使用场景
在自动化幻灯片生成领域,Slides-Align1.5k数据集作为SlidesGen-Bench基准的核心组成部分,其最经典的使用场景在于为异构生成系统提供统一、可量化的人类偏好对齐评估。该数据集精心收集了涵盖七个现实场景、来自九种主流生成系统的幻灯片样本,通过人类标注建立了美学与内容质量的黄金标准。研究者利用该数据集,能够跨越模板填充、代码驱动和图像合成等不同技术范式,在视觉渲染层面公平比较各系统的输出质量,从而规避了传统评估方法因依赖中间表示或未校准主观判断而导致的偏差。
解决学术问题
Slides-Align1.5k数据集有效解决了自动化幻灯片生成评估中长期存在的若干关键学术问题。首先,它通过构建人类偏好对齐的数据,为“内容保真度”、“美学质量”和“可编辑性”这三个核心维度的计算指标提供了可靠的验证基础,使得原本主观的视觉评价得以量化与复现。其次,该数据集打破了以往评估协议对参考文件或特定架构的依赖,为开放域生成场景提供了统一的评估框架。其重要意义在于,它将评估焦点从生成过程的异质性转移到终端输出的视觉质量上,推动了该领域从方法驱动的比较转向以人类感知为中心的性能度量,为建立可靠、通用的幻灯片生成评估标准奠定了数据基石。
衍生相关工作
围绕Slides-Align1.5k数据集及其所属的SlidesGen-Bench基准,已衍生出一系列关注幻灯片生成与评估的经典研究工作。这些工作主要沿两个方向拓展:一是评估方法的深化,例如借鉴该数据集的人类对齐思路,进一步探索基于大型视觉语言模型的无参考评估方法,以提升评估的自动化程度与泛化能力;二是生成模型的改进,许多后续研究以该基准的评估维度为目标,优化模型在内容摘要、视觉和谐度与文档结构生成等方面的能力。具体而言,相关工作如PPTAgent、AutoPresent等在构建其评估模块时,均参考了该数据集所确立的以内容、美学、可编辑性为核心的多维度评估范式,推动了领域内评估标准向更全面、更人性化的方向演进。
以上内容由遇见数据集搜集并总结生成



