SlideTailor Benchmark Dataset

Name: SlideTailor Benchmark Dataset
Creator: 新加坡国立大学计算机科学系
Published: 2025-12-23 20:01:18
License: 暂无描述

arXiv2025-12-23 更新2025-12-25 收录

下载链接：

https://github.com/nusnlp/SlideTailor

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由新加坡国立大学团队构建，旨在支持个性化论文幻灯片生成任务的研究。作为基准数据集，它通过捕获多样化的用户偏好（包括内容结构和视觉模板）来模拟真实场景需求，数据集包含论文-幻灯片样本对及配套模板文件，为评估算法在偏好对齐和呈现质量方面的表现提供量化依据。数据采集过程强调对学术文档的多维度解构，并设计了可解释的评估指标体系，主要应用于智能演示生成领域，解决传统方法在个性化适配方面的不足。

This dataset was developed by a research team from the National University of Singapore to support research on personalized academic presentation slide generation from research papers. As a benchmark dataset, it simulates real-world application demands by capturing diverse user preferences, including content structure and visual templates. It comprises paper-slide sample pairs and supporting template files, offering quantitative evaluation criteria for assessing algorithm performance in terms of preference alignment and presentation quality. The data collection process emphasizes multi-dimensional deconstruction of academic documents, and an interpretable evaluation metric system is devised. This dataset is primarily applied in the field of intelligent presentation generation, addressing the limitations of traditional methods in personalized adaptation.

提供机构：

新加坡国立大学计算机科学系

创建时间：

2025-12-23

原始信息汇总

SlideTailor数据集概述

数据集名称

SlideTailor-PSP-dataset

核心任务

个性化科研论文演示幻灯片生成。该任务在论文到幻灯片的生成过程中，引入了对用户指定偏好的条件约束。

数据集特点

基准数据集：为评估个性化幻灯片生成任务而构建。
用户偏好多样性：数据集旨在捕捉多样化的用户偏好。
评估指标：包含精心设计的、可解释的评估指标，用于进行稳健的评估。

数据获取与准备

访问地址：https://huggingface.co/datasets/yyyang/SlideTailor-PSP-dataset
使用说明：需按照上述Hugging Face页面提供的指引，准备数据及相应的配置文件。

关联资源

源代码：本仓库包含SlideTailor系统的官方实现代码。
论文信息：相关研究“SlideTailor: Personalized Presentation Slide Generation for Scientific Papers”已被AAAI 2026接收。

开源状态

数据集与源代码已向社区公开发布。

搜集汇总

数据集介绍

构建方式

在学术演示自动化领域，SlideTailor Benchmark Dataset的构建体现了对用户个性化需求的深度模拟。该数据集从顶级人工智能会议和权威科学期刊中精心筛选了200篇目标论文，覆盖了人工智能、机器学习、自然语言处理、计算机视觉、化学和医学等多个学科，确保了主题和风格的广泛多样性。为了捕捉用户偏好的差异性，研究团队手工收集了50对高质量的论文-演示文稿样本对，这些样本对反映了不同研究者和学科在内容组织与视觉风格上的多样化选择。同时，数据集还整合了10套具有代表性的学术演示模板，这些模板涵盖了研究导向的常见布局与美学惯例。通过将目标论文、样本对和模板进行组合，该数据集构建了一个包含高达10万种独特输入组合的评估基准，为研究个性化论文到演示文稿的生成任务提供了丰富且结构化的测试环境。

特点

SlideTailor Benchmark Dataset的核心特征在于其专注于建模开放式的、细粒度的用户偏好，突破了以往数据集中偏好类型固定且有限的约束。该数据集不仅规模庞大，其构建逻辑紧密贴合真实的演示文稿创作流程，用户偏好通过论文-演示文稿样本对和.pptx模板文件这两种自然且易于提供的载体进行隐式编码，分别对应内容结构与美学风格两个相对正交的维度。这种设计使得数据集能够支持对生成模型在内容叙事流、详略程度、视觉布局对齐等多方面能力的综合评估。此外，数据集配套设计了一套可解释的评估指标，包括基于偏好的覆盖度、流程、内容结构和美学对齐度量，以及独立于偏好的内容与美学质量度量，为全面、稳健地评估个性化生成方法的性能提供了科学依据。

使用方法

SlideTailor Benchmark Dataset主要用于评估和推动个性化论文到演示文稿生成技术的研究。研究者可以将目标论文、一个代表用户内容偏好的论文-演示文稿样本对，以及一个代表美学偏好的.pptx模板文件共同输入到待评估的生成系统中。系统需要根据这些隐式的偏好信号，生成既符合目标论文核心内容，又在叙事结构和视觉风格上与用户偏好对齐的演示文稿。评估时，需使用数据集提供的标准化指标，从偏好对齐度和整体演示质量两个维度对生成结果进行量化分析。该数据集支持零样本评估，允许研究者测试不同多模态大语言模型在该任务上的适应性，同时也为探索端到端的训练方法提供了基准。通过在该数据集上进行实验，能够有效比较不同方法在理解与满足多样化用户需求方面的能力。

背景与挑战

背景概述

SlideTailor Benchmark Dataset由新加坡国立大学的研究团队于2025年构建，旨在推动个性化演示文稿生成领域的研究。该数据集聚焦于学术论文到演示文稿的转换任务，核心研究问题在于如何根据用户隐含的偏好，自动生成符合其内容结构与视觉风格需求的个性化幻灯片。通过整合来自顶级人工智能会议及权威科学期刊的多样化论文与幻灯片样本，该数据集不仅模拟了真实场景下的用户偏好差异，也为评估模型在内容组织与美学设计上的对齐能力提供了坚实基础，对自动化内容创作与个性化人机交互领域产生了显著影响。

当前挑战

该数据集致力于解决个性化演示文稿生成中的核心挑战，即如何从用户提供的论文-幻灯片样本对及视觉模板中，有效提取并应用其隐含的、未标注的内容与美学偏好。构建过程中的主要挑战包括：首先，偏好信号的隐式性与纠缠性使得模型难以进行精确的蒸馏与泛化；其次，需在内容叙事流、细节强调程度与视觉布局等多个维度上实现和谐对齐；此外，数据集的构建需涵盖广泛的学科领域与多样的视觉风格，以确保其能够全面反映真实世界中用户偏好的复杂性，并为模型的鲁棒评估提供可靠基准。

常用场景

经典使用场景

在学术交流领域，SlideTailor Benchmark Dataset 为个性化演示文稿生成提供了关键评估基准。该数据集通过整合多样化的用户偏好样本与视觉模板，支持研究者系统评估模型在内容结构与美学风格上的对齐能力。其经典应用场景在于模拟真实学术汇报场景，使生成模型能够依据用户提供的论文-幻灯片示例对及模板文件，自动生成符合个性化需求的演示文稿，从而推动自动化内容创作技术的发展。

实际应用

在实际应用层面，该数据集支撑的生成框架可直接服务于学术汇报、会议演讲与教学材料制备等场景。研究人员仅需提供历史演示案例与视觉模板，系统即可自动生成风格一致、内容聚焦的个性化幻灯片，大幅降低内容创作的时间成本。此外，结合语音链机制生成的演讲脚本，可进一步扩展至自动化视频报告制作，为远程教育、预录学术分享提供高效解决方案。

衍生相关工作

基于该数据集衍生的经典工作主要包括多模态条件生成模型的优化与评估方法创新。例如，研究者利用其构建的偏好对齐指标，开发了更精准的视觉-内容协同评估框架；同时，数据集中隐含的用户行为模式启发了后续基于示例学习的个性化生成研究，如扩展至商业报告、教育课件等领域的自适应内容生成系统。这些工作进一步巩固了数据驱动个性化生成在学术与工业界的应用基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集