技能增强学习算法

Name: 技能增强学习算法
Creator: 清华大学
License: 暂无描述

国家基础学科公共科学数据中心2025-11-22 收录

下载链接：

https://nbsdc.cn/general/dataDetail?id=691de992195d267610094ffa&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集主要面向智能体技能增强与人类偏好对齐研究，针对复杂操作任务中策略优化与行为可解释性需求建设。基于清华大学智能技术与系统国家重点实验室的人机协同操作平台产生，通过RealSense D455深度相机、GoPro阵列等多传感器同步采集，主要记录了状态-动作轨迹、奖励信号、人类偏好评分、策略参数更新序列及任务执行视频等观测值。数据来源于在人机协同环境中开展的强化学习人类反馈（RLHF）与奖励塑形对比实验，采用On-Policy蒸馏技术实时融合人类专家评价。产生方法包含三个关键环节：每10分钟同步采集人类偏好数据，通过分布式训练框架并行运行SAC/PPO基线算法与DreamerV3、DiffusionPolicy等增强算法，完整保存所有(s,a,r,s′,pref)五元组用于离线复现分析。实验设计覆盖主要消融设置，确保关键指标方差控制在±5%以内。数据集主要内容包括：基于RLHF的训练日志、多算法性能对比曲线、模型权重快照、任务执行视频回放及奖励塑形配置参数。所有数据实时上传至实验跟踪系统，采用标准化格式存储超参数、训练曲线和中间模型版本，支持完整的实验复现与结果追溯。数据体量达数十TB级，采集周期为2022年8月至2025年5月。遵循CC BY-NC 4.0许可协议，设置5年保存期限。本数据集通过系统记录人类反馈与算法增强的交互过程，为研究外部知识注入对策略性能的影响机制提供实证基础，显著促进智能体在复杂任务中学习效率与行为可靠性的提升，推动增强学习算法在动态操作场景中的实际应用。

提供机构：

清华大学