Presentation Slides Emphasis Dataset (PSED)

Name: Presentation Slides Emphasis Dataset (PSED)
Creator: 休斯敦大学
Published: 2021-01-02 14:54:55
License: 暂无描述

arXiv2021-01-02 更新2024-06-21 收录

下载链接：

https://github.com/RiTUAL-UH/Predicting-Emphasis-inPresentation-Slides-Shared-Task

下载链接

链接失效反馈

官方服务：

资源简介：

Presentation Slides Emphasis Dataset (PSED)是由休斯敦大学创建的一个包含1776个演示文稿幻灯片的数据集，涵盖了从技术到非技术如儿童材料的广泛主题。每个幻灯片实例都通过众包方式标注了强调词。该数据集旨在通过自动化设计辅助，帮助演讲者在创建幻灯片时选择合适的强调词，以提高观众的注意力和信息保留。数据集的创建过程包括从不同来源收集幻灯片，进行预处理以确保文本的清洁，并通过MTurk平台进行标注。PSED数据集的应用领域主要集中在教育和技术演示中，旨在通过优化幻灯片设计提高信息传递效率。

Presentation Slides Emphasis Dataset (PSED) is a dataset developed by the University of Houston, containing 1776 presentation slides covering a wide range of topics spanning technical and non-technical domains including children’s educational materials. Each slide instance is annotated with emphasis words via crowdsourcing. This dataset aims to assist speakers in selecting appropriate emphasis words during slide creation through automated design assistance, thereby enhancing audience attention and information retention. The dataset construction process includes collecting slides from diverse sources, performing preprocessing to ensure text cleanliness, and conducting annotations via the Amazon Mechanical Turk (MTurk) platform. The application scenarios of the PSED dataset mainly focus on educational and technical presentations, with the goal of improving information transmission efficiency by optimizing presentation slide design.

提供机构：

休斯敦大学

创建时间：

2021-01-02

搜集汇总

数据集介绍

构建方式

在演示文稿设计自动化的研究背景下，Presentation Slides Emphasis Dataset (PSED) 的构建过程体现了严谨的数据采集与标注策略。数据集从 .ORG、.GOV 域名网站及 ACL 文献库中广泛收集演示文稿幻灯片，覆盖技术性与非技术性多元主题。通过 Pdfminer 库提取文本内容，并移除仅含公式、图表等非文本元素的幻灯片，确保数据纯净性。标注环节采用众包平台，由九名标注者根据幻灯片图像与对应文本选择强调词汇，并通过设计质量监控问题保障标注可靠性。最终，经过一致性筛选与低一致性标注者剔除，数据集包含 1,776 张高质量幻灯片，每张均附有八位标注者的强调标注，整体 Fleiss' Kappa 分数达 0.2092，反映了任务中存在的多元主观视角。

特点

PSED 数据集在自然语言处理与视觉设计交叉领域展现出独特价值。其核心特点在于涵盖广泛主题的演示文稿幻灯片，从技术报告到儿童插图，内容多样性显著。数据集中每张幻灯片均提供多标注者强调选择，通过概率分布形式呈现词汇强调程度，有效捕捉了强调任务的主观性与复杂性。此外，数据集包含丰富的语言特征分析，如词性标注分布与词汇形态特征（如大写起始、标点等），为模型理解强调模式提供了深层线索。这些特点共同构成了一个具有挑战性的基准，推动模型在跨领域与多视角场景下的鲁棒性发展。

使用方法

PSED 数据集主要用于训练与评估自动强调选择模型，以支持演示文稿的设计辅助。典型使用流程涉及将幻灯片文本序列作为输入，模型需为每个词汇预测强调概率值。评估采用 Matchm 指标，针对概率排名前 1、5、10 的词汇与标注真值进行比对，兼顾任务主观性。研究实践中，可结合预训练语言模型（如 XLNet、RoBERTa）与手工特征（如词性标注、大写词汇）构建序列标注架构，通过集成方法提升预测性能。数据集已按 70% 训练、10% 开发、20% 测试划分，便于模型训练、调优与跨长度分组的错误分析，为自动化设计工具的开发提供实证基础。

背景与挑战

背景概述

在数字时代，演示文稿已成为教学与商业沟通的核心媒介，其视觉设计对信息传递效率具有深远影响。由休斯顿大学与Adobe研究院于2021年联合推出的Presentation Slides Emphasis Dataset (PSED)，旨在探索演示文稿中的重点词汇自动选择问题，即通过特殊格式（如加粗或斜体）突出关键术语以引导观众注意力。该数据集收录了涵盖技术、法律乃至儿童插图等多元主题的1776张幻灯片，并经由众包平台标注了重点词汇，为自然语言处理与计算设计交叉领域提供了首个专注于演示文稿重点选择任务的基准资源。其核心研究在于推动自动化设计辅助系统的发展，通过理解幻灯片内容语义，生成符合人类认知偏好的视觉强调方案，从而提升演示效果并减轻人工设计负担。

当前挑战

PSED数据集所应对的领域挑战在于演示文稿重点选择的自动化，这要求模型能够从非结构化的文本中识别出最具信息价值或情感引导力的词汇，其主观性与语境依赖性远超传统文本分类任务。构建过程中的挑战则体现在数据多样性与标注一致性上：幻灯片主题跨度极大，从高度专业的科学术语到通俗的日常用语，要求模型具备强大的领域泛化能力；同时，重点选择本身具有主观性，导致标注者间一致性较低（Fleiss’ Kappa仅为0.2092），需通过精细的数据清洗与标注质量控制来平衡多元观点。此外，幻灯片结构的异质性（如包含公式、图表等非文本元素）以及文本长度差异（从十余词到上百词）进一步增加了数据预处理与模型建模的复杂度。

常用场景

经典使用场景

在演示文稿设计领域，Presentation Slides Emphasis Dataset (PSED) 为自动强调选择任务提供了关键数据支持。该数据集通过众包标注方式，收集了涵盖技术与非技术主题的演示文稿幻灯片，每张幻灯片均标注了需强调的词汇。其经典应用场景在于训练和评估自然语言处理模型，以自动识别幻灯片中的核心词汇，辅助用户通过加粗或斜体等格式突出关键信息，从而提升幻灯片的视觉传达效果与观众的信息留存率。

解决学术问题

PSED 数据集主要解决了演示文稿自动化设计中的强调选择问题，填补了该领域数据资源的空白。传统研究多集中于幻灯片自动生成或整体风格建议，而 PSED 则专注于词汇级别的强调预测，通过引入标注数据，促进了基于内容理解的自动化设计辅助研究。该数据集帮助学术界探索如何利用自然语言理解技术，克服幻灯片主题多样性和结构差异带来的挑战，推动了跨领域协作与模型鲁棒性的提升。

衍生相关工作

基于 PSED 数据集，多项经典研究工作在 AAAI-CAD21 共享任务中涌现。例如，UBRI-604 团队采用 Transformer 预训练模型（如 XLM-RoBERTa）结合手工特征，实现了最优性能；DeepBlueAI 通过集成 BERT、SciBERT 和 ERNIE 2.0 模型提升预测准确性；Cisco 团队则探索了 BiLSTM-ELMo 与 Transformer 的融合架构。这些工作不仅推动了强调选择模型的发展，还为处理科学词汇和长文本幻灯片提供了新思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集