cogym-real-trajectories

Name: cogym-real-trajectories
Creator: Social And Language Technology Lab
Published: 2025-12-05 01:54:24
License: 暂无描述

Hugging Face2025-12-05 更新2025-12-06 收录

下载链接：

https://huggingface.co/datasets/SALT-NLP/cogym-real-trajectories

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含228条人机协作轨迹，收集自斯坦福大学Collaborative Gym平台在2025年4月6日之前的真实用户数据。这些数据已经过用户信息去匿名化处理。每条轨迹以JSON文件格式表示，包含模型名称、任务类型（如旅行规划、学术论文相关工作撰写、表格数据分析等）、初始用户查询、用户对最终成果的评分（1-5级）、对代理整体满意度的评分、对代理沟通能力的评分、用户自然语言反馈以及完整的人机协作轨迹日志。

提供机构：

Social And Language Technology Lab

创建时间：

2025-12-01

原始信息汇总

Collaborative Gym Real Trajectories 数据集概述

数据集基本信息

数据集名称：Collaborative Gym Real Trajectories Dataset
数据来源：斯坦福Collaborative Gym平台（https://github.com/SALT-NLP/collaborative-gym）
数据收集时间：2025年4月6日之前
数据规模：包含228条人机协作轨迹
数据主体：来自真实人类用户，数据中的用户信息已去匿名化
许可协议：CC-BY-SA-4.0

数据结构与内容

每条轨迹以一个JSON文件表示，包含以下字段：

modelName：驱动协作智能体的模型名称（例如“gpt-4o”）
task：协作任务类型，为以下之一：
- travel_planning - 旅行行程规划
- related_work - 学术论文相关工作部分撰写
- tabular_analysis - 表格数据分析
query：启动协作的初始用户查询
outcomeRating：用户对最终产出物（旅行计划、相关工作部分、分析结果）的评分（1-5李克特量表，若提供）
agentRating：用户对整体满意度的评分（1-5李克特量表，若提供）
communicationRating：用户对协作过程中智能体沟通能力的评分（1-5李克特量表，若提供）
agentFeedback：用户的自然语言反馈（若提供）
event_log：完整的人机协作轨迹，包含所有消息和操作

引用信息

若在研究中使用本数据集，请引用Collaborative Gym平台： bibtex @article{shao2024collaborative, title={Collaborative gym: A framework for enabling and evaluating human-agent collaboration}, author={Shao, Yijia and Samuel, Vinay and Jiang, Yucheng and Yang, John and Yang, Diyi}, journal={arXiv preprint arXiv:2412.15701}, year={2024} }

搜集汇总

数据集介绍

构建方式

在人类与智能体协作研究领域，获取真实交互轨迹对于理解协作动态至关重要。cogym-real-trajectories数据集依托斯坦福大学开发的Collaborative Gym平台，系统性地采集了截至2025年4月6日前的228条真实人机协作轨迹。数据构建过程通过该平台记录用户在三种具体任务场景下的完整对话与交互事件，并对原始数据中的用户身份信息进行了去匿名化处理，确保了数据来源的真实性与可追溯性。每条轨迹均以结构化JSON格式保存，完整封装了从初始查询到最终反馈的协作全流程。

使用方法

研究人员可利用该数据集开展人机协作、对话系统评估及智能体行为分析等多方面的实证研究。数据集以JSON文件格式提供，每个文件对应一次独立的协作会话。使用者可通过解析`event_log`字段重构完整的交互序列，并结合`task`与`modelName`字段进行任务或模型类别的筛选与对比分析。用户提供的多项评分与文本反馈则为构建或验证协作质量评估模型提供了直接的监督信号。在具体应用中，建议遵循CC-BY-SA-4.0许可协议，并在相关研究中引用其依托的Collaborative Gym平台文献，以确保学术规范的遵循。

背景与挑战

背景概述

随着人工智能向人机协作范式演进，构建能够与人类高效协同的智能体成为研究前沿。在此背景下，斯坦福大学SALT-NLP实验室的研究团队于2024年提出了Collaborative Gym框架，旨在系统化地支持与评估人机协作。作为该框架的实证基础，cogym-real-trajectories数据集应运而生，其核心研究问题聚焦于理解真实场景下人类与AI代理在复杂任务中的交互动态与协作效能。该数据集收录了截至2025年4月前的228条真实人机协作轨迹，覆盖行程规划、学术写作与数据分析三类任务，为人机交互、协作AI及大语言模型评估领域提供了宝贵的真实世界交互数据，推动了从模拟环境到真实用户交互的实证研究转型。

当前挑战

该数据集致力于应对人机协作这一新兴领域的核心挑战，即如何量化与优化智能体在开放、多轮对话任务中的协作效能与用户体验。具体而言，其构建过程面临多重挑战：首先，在数据采集层面，需设计普适性框架以标准化记录多样化的协作任务（如行程规划、学术写作）中产生的复杂、多模态交互轨迹；其次，在数据质量层面，需在保护用户隐私的前提下，对交互数据进行去匿名化处理，并系统收集用户对协作结果、智能体表现及沟通能力等多维度的主观评分与自然语言反馈，以确保数据的可靠性与丰富性。这些挑战共同指向了构建高质量、可泛化的人机协作基准所必需的数据生态与评估体系。

常用场景

经典使用场景

在人工智能与人类协作的研究领域，cogym-real-trajectories数据集为探索智能体与人类在复杂任务中的交互模式提供了宝贵的实证基础。该数据集最经典的使用场景是作为评估和优化协作型智能体性能的基准，研究者通过分析其中涵盖旅行规划、学术写作相关工作和表格数据分析三类任务的人类-智能体对话轨迹，能够深入理解智能体在真实协作环境中的决策逻辑、沟通策略以及任务完成效果。

解决学术问题

该数据集有效解决了人机协作研究中缺乏大规模、高质量真实交互数据的核心难题。它使得研究者能够超越模拟环境，基于真实用户的反馈和评分，定量评估智能体在任务成果、整体满意度及沟通能力等多维度的表现。这为构建更自然、高效且可信赖的协作智能体提供了关键的数据支撑，推动了从理论模型到实际应用验证的跨越，对提升智能体的社会性和实用性具有重要意义。

实际应用

在实际应用层面，cogym-real-trajectories数据集为开发面向特定领域的智能协作助手提供了直接的优化依据。例如，在智能旅行规划系统中，分析该数据集的轨迹可以帮助改进智能体对用户模糊需求的解读与行程推荐能力；在学术写作辅助工具中，则可借鉴其中相关工作的协作模式，提升智能体协助文献梳理与章节撰写的效率与质量，最终赋能于教育、咨询、数据分析等多个行业的生产力工具开发。

数据集最近研究