five

SlideRL

收藏
arXiv2026-03-18 更新2026-03-19 收录
下载链接:
https://huggingface.co/datasets/KarthikRagunathAnandaKumar/sliderl-multi-turn-rollouts
下载链接
链接失效反馈
官方服务:
资源简介:
SlideRL是由塔夫斯公司、德克萨斯大学达拉斯分校和德克萨斯农工大学联合构建的开源数据集,包含288条多轮次轨迹数据,覆盖6种大型语言模型在48个商业演示任务中的完整生成过程。该数据集记录了每轮工具调用、环境观察、步骤奖励和质量评分,旨在支持智能体在幻灯片自动生成任务中的强化学习研究。数据通过Claude Opus 4.6生成的专家轨迹进行标注,应用于评估模型在内容规划、视觉设计和逆向规范奖励等方面的表现,为复杂创意任务的工具使用与多维度质量评估提供基准。

SlideRL is an open-source dataset jointly constructed by Tufts Company, The University of Texas at Dallas, and Texas A&M University. It contains 288 multi-turn trajectory samples, covering the complete generation processes of 6 large language models (LLMs) across 48 commercial demonstration tasks. The dataset records per-round tool calls, environmental observations, step rewards, and quality scores, with the goal of supporting reinforcement learning research on AI Agents for automated slide generation tasks. All data is annotated using expert trajectories generated by Claude Opus 4.6, and is utilized to evaluate model performance in content planning, visual design, inverse normative reward, and other related domains. It serves as a benchmark for tool usage and multi-dimensional quality assessment in complex creative tasks.
提供机构:
塔夫斯公司; 德克萨斯大学达拉斯分校; 德克萨斯农工大学
创建时间:
2026-03-18
原始信息汇总

SlideRL Multi-Turn Rollouts 数据集概述

数据集基本信息

  • 许可证: MIT
  • 任务类别: 文本生成、强化学习
  • 标签: sliderl, multi-turn, rollouts, tool-use, presentation-generation, grpo, rl
  • 数据集名称: SlideRL Multi-Turn Rollouts
  • 数据规模: n<1K

数据集内容

该数据集包含来自 SlideRL 环境的多轮交互轨迹,涵盖了6个不同模型。每条轨迹记录了智能体在 SlideRL 幻灯片生成环境中通过多轮工具使用进行交互的过程。

包含的模型与文件

数据集包含以下6个JSON文件,每个文件包含48个交互轨迹:

文件 模型 轨迹数量 描述
claude_opus_4_6_trajectories.json Claude Opus 4.6 48 Anthropic Claude Opus 4.6
claude_sonnet_4_6_trajectories.json Claude Sonnet 4.6 48 Anthropic Claude Sonnet 4.6
llama_4_scout_trajectories.json Llama 4 Scout 48 Meta Llama 4 Scout
gpt_oss_120b_trajectories.json GPT-OSS-120B 48 OpenAI GPT-OSS-120B
finetuned_model_trajectories.json SlideRL Finetuned 48 GRPO微调后的模型
base_model_trajectories.json SlideRL Base 48 微调前的基座模型

轨迹数据结构

每个JSON文件包含一个轨迹列表,每个轨迹包含以下字段:

  • episode_id: 唯一标识符
  • model: 模型名称
  • brief: 任务简报,包含主题、受众、幻灯片数量等信息
  • brief_topic: 主题名称
  • turns: 交互轮次列表,每轮包含:
    • turn: 轮次编号
    • assistant: 模型响应文本
    • tool_call: 工具调用信息
    • observation: 环境反馈
    • success: 是否成功
    • phase: 当前阶段(RESEARCH|PLAN|BUILD|REFINE)
    • slide_count: 幻灯片数量
    • done: 是否完成
    • step_reward: 单步奖励
    • cumulative_reward: 累计奖励
  • total_steps: 总步数
  • final_phase: 最终阶段
  • completed: 是否完成
  • slides_created: 创建的幻灯片数量
  • cumulative_reward: 累计奖励
  • final_quality: 最终质量评估
  • slides_html: 幻灯片HTML代码列表
  • elapsed_seconds: 耗时(秒)

环境描述

SlideRL 环境是一个多轮工具使用环境,智能体通过以下步骤创建演示文稿幻灯片:

  1. 研究: 通过网络搜索研究主题
  2. 规划: 制定大纲
  3. 构建: 使用HTML/CSS创建幻灯片
  4. 优化: 优化幻灯片质量

智能体通过结构化工具调用(web_searchcreate_outlineset_themeadd_slidereplace_slidedelete_slide等)进行交互,并接收带有质量反馈的环境观察结果。

评估主题

所有模型均在相同的48个商业演示简报上进行评估,主题涵盖金融、技术、营销、网络安全、医疗保健等领域。

项目背景

该数据集是 SlideRL 项目的一部分——一个用于在多轮工具使用任务上训练LLM智能体的开放式强化学习环境。

搜集汇总
数据集介绍
main_image_url
构建方式
在自动化演示文稿生成领域,构建高质量数据集面临多模态内容协调与结构化评估的挑战。SlideRL数据集的构建依托于一个兼容OpenEnv的强化学习环境,该环境将演示文稿生成建模为序列决策问题。研究者首先利用Claude Opus 4.6模型作为专家代理,根据48个涵盖财务报告、市场分析等主题的商业简报生成高质量的多轮交互轨迹。每条轨迹完整记录了从研究、规划、生成到最终定稿的完整工作流程,包含每轮的工具调用、环境状态观测与即时奖励。随后,基于这些专家轨迹,采用分组相对策略优化方法对Qwen2.5-Coder-7B基础模型进行微调,仅训练其0.5%的参数,最终形成了包含288条完整轨迹的标准化数据集。
使用方法
该数据集主要服务于强化学习与大语言模型代理在复杂创意任务中的研究与应用。研究者可利用SlideRL评估不同模型在自动化演示文稿生成任务中的工具调用能力、多步骤推理性能以及内容创作质量。具体而言,数据集支持对代理策略进行离线评估,分析其在研究、内容规划、幻灯片生成与精炼等不同阶段的决策模式。同时,其多组件奖励分数可用于训练奖励模型或进行策略优化算法的基准测试。开发人员亦可借鉴其环境设计与工具集,构建类似的智能内容创作系统。数据集以标准格式发布,便于直接加载并进行后续的分析与模型训练。
背景与挑战
背景概述
SlideRL数据集于2026年由Tavus Inc.、德克萨斯大学达拉斯分校及德克萨斯农工大学的研究团队共同创建,旨在推动基于大型语言模型的自动化演示文稿生成研究。该数据集围绕强化学习环境构建,核心研究问题聚焦于如何训练智能体通过工具调用完成从主题研究、内容规划到视觉设计的全流程演示创作。其创新性地引入了逆向规范奖励机制,通过评估生成幻灯片对原始任务说明的忠实度,为多模态内容生成的质量评估提供了全新范式,显著提升了智能体在复杂创意任务中的可控性与可解释性。
当前挑战
SlideRL数据集致力于解决自动化演示文稿生成这一综合性挑战,其核心在于协调内容连贯性、视觉美学与受众感知等多维度目标。构建过程中的主要挑战体现在三个方面:一是设计覆盖研究、规划、生成、优化及终稿五个阶段且包含14种工具的复杂动作空间;二是构建融合结构验证、渲染质量、美学评分、内容质量及逆向规范奖励的多组件评估体系,以提供密集且可解释的训练信号;三是应对奖励函数不可微分且随机的特性,需通过分组相对策略优化等方法确保训练稳定性,并防范智能体陷入对无状态工具的奖励黑客行为。
常用场景
经典使用场景
在自动化演示文稿生成领域,SlideRL数据集为基于强化学习的大语言模型代理训练提供了标准化的评估基准。该数据集通过记录多轮次交互轨迹,完整捕捉了代理从主题研究、内容规划到视觉设计的全流程决策序列。研究者可利用这些轨迹分析代理在复杂工具调用环境中的行为模式,优化奖励函数设计,并验证不同模型在结构化任务上的泛化能力。
解决学术问题
SlideRL数据集有效解决了演示文稿自动生成中多维度质量评估的难题。其创新的逆向规范奖励机制,通过大语言模型重构原始任务描述来量化输出内容的整体连贯性,为评估生成内容的忠实度提供了可解释的度量标准。该数据集支撑的研究工作揭示了指令遵循与工具调用合规性对代理任务性能的关键影响,而非单纯依赖模型参数规模,为高效轻量化代理模型的开发提供了理论依据。
实际应用
在实际商业与教育场景中,SlideRL数据集支撑的模型能够自动化生成符合专业标准的演示文稿。例如,企业可快速创建财务报告、市场分析或融资路演材料,显著提升内容生产效率。其环境设计的工具链支持生成HTML与PPTX双格式输出,确保了成果在网页渲染与传统演示软件中的无缝使用,为跨平台内容交付提供了实用解决方案。
数据集最近研究
最新研究方向
在自动化演示文稿生成领域,SlideRL数据集的研究前沿聚焦于强化学习与大语言模型(LLM)智能体的协同优化。其核心创新在于提出了一个多组件奖励架构,特别是引入了逆向规范奖励机制,通过让LLM从生成的幻灯片中反推原始任务规范,从而评估内容的整体连贯性与忠实度。这一范式将演示文稿生成构建为一个序列决策问题,智能体通过调用14种工具在研究与设计等五个阶段中进行交互。研究热点体现在利用分组相对策略优化(GRPO)对Qwen2.5-Coder-7B等模型进行高效微调,仅训练0.5%的参数即可在多样化的商业简报任务上达到接近顶尖闭源模型的性能。该工作揭示了在智能体任务中,指令遵循与工具调用合规性比单纯的参数量更为关键,其开源的288条多轮次轨迹数据集为可解释的奖励设计与智能体行为分析提供了重要基准,推动了面向复杂创意工作流的可训练智能体系统的发展。
相关研究论文
  • 1
    Learning to Present: Inverse Specification Rewards for Agentic Slide Generation塔夫斯公司; 德克萨斯大学达拉斯分校; 德克萨斯农工大学 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作