py-bug-trace-laguna-xs-2-l2-rollouts

Hugging Face2026-05-31 更新2026-06-01 收录

下载链接：

https://huggingface.co/datasets/poolside-laguna-hackathon/py-bug-trace-laguna-xs-2-l2-rollouts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于评估AI系统任务完成性能的对话轨迹数据，记录了多轮对话的完整交互过程。每个样本具有唯一的轨迹标识（trace_id）、示例标识（example_id）和轮次编号（rollout_number）。核心数据由提示（prompt）和完成（completion）组成，其中prompt包含内容（content）、角色（role）和工具调用标识（tool_call_id）等字段，completion额外包含推理内容（reasoning_content）字段。数据集提供全面的评估指标，如奖励分数（reward）、准确匹配奖励（exact_match_reward）、正确性标识（correct）和分数（score），并记录性能数据包括总耗时（total_time）、延迟毫秒数（latency_ms）、步骤数（num_steps）和创建时间戳（created_at）。元数据信息（info）涵盖任务分类（category）、难度级别（difficulty）、完成状态（is_completed）、截断状态（is_truncated）、停止条件（stop_condition）等。性能分析部分包括详细的时间统计（timing）和令牌使用统计（token_usage）。数据集包含15个训练样本，总大小约32KB，适用于对话系统评估、强化学习训练、任务完成度分析和AI系统性能基准测试等场景。

This dataset contains conversational trajectory data for evaluating the task completion performance of AI systems. It records the complete interaction process of multi-turn dialogues. Each sample includes a unique trace identifier (trace_id), example identifier (example_id), and rollout number (rollout_number). The core data is composed of two parts: prompt and completion. The prompt contains fields such as content, role, and tool_call_id, while the completion additionally includes the reasoning_content field. The dataset provides comprehensive evaluation metrics, including reward score (reward), exact match reward (exact_match_reward), correctness flag (correct), and score (score). It also records detailed performance data, such as total_time (total elapsed time), latency_ms (latency in milliseconds), num_steps (number of steps), and created_at (creation timestamp). The rich metadata information (info) covers task category (category), difficulty level (difficulty), completion status (is_completed), truncation status (is_truncated), stop condition (stop_condition), and other related items. The performance analysis section offers detailed timing statistics, including the duration of each stage such as environment setup, model generation, and scoring, as well as token usage statistics (token_usage). The dataset consists of 15 training samples with a total size of approximately 32 KB, and is suitable for scenarios including dialogue system evaluation, reinforcement learning training, task completion analysis, and AI system performance benchmark testing.

创建时间：

2026-05-30

原始信息汇总

数据集名称: py-bug-trace-laguna-xs-2-l2-rollouts
发布机构: poolside-laguna-hackathon
数据集地址: https://huggingface.co/datasets/poolside-laguna-hackathon/py-bug-trace-laguna-xs-2-l2-rollouts

数据集规模

总下载大小: 61,105 字节
数据集总大小: 32,023 字节
划分: 仅包含训练集（train），共 15 个样本

数据特征

每条记录包含以下字段：

字段名	数据类型	说明
trace_id	string	跟踪ID
example_id	int64	示例ID
rollout_number	int64	rollout编号
task	null	任务（本数据集中未提供）
prompt	list of objects	提示信息，包含 content（string）、role（string）、tool_call_id（string）、tool_calls（null list）
completion	list of objects	模型补全内容，包含 content（string）、reasoning_content（string）、role（string）、tool_call_id（string）、tool_calls（null list）
answer	null	答案（本数据集中未提供）
reward	float64	奖励值
score	null	分数（本数据集中未提供）
correct	null	是否正确（本数据集中未提供）
num_steps	null	步数（本数据集中未提供）
total_time	float64	总耗时
latency_ms	int64	延迟（毫秒）
created_at	string	创建时间
info	struct	详细信息，包含 category（string）、difficulty（string）、id（string）、is_completed（bool）、is_truncated（bool）、metrics（struct，含 exact_match_reward 和 num_turns）、stop_condition（string）、timing（struct，含环境、生成、模型、评分、设置等各阶段耗时）以及 token_usage（struct，含 input_tokens、output_tokens 等）
exact_match_reward	float64	精确匹配奖励

数据用途

该数据集似乎是用于训练或评估代码相关任务（如Python bug追踪）的强化学习或语言模型微调数据，包含多轮对话的提示与补全、奖励信号以及详细的性能和时间信息。

搜集汇总

数据集介绍

构建方式

该数据集源自对Python程序缺陷追踪过程的模拟，通过多轮交互式探索进行构建。每条数据记录了一个从初始提示到最终完成的完整轨迹，包含trace_id作为唯一标识，以及rollout_number表示探索轮次。数据采集采用环境与生成模型协同工作的方式，在每个交互步骤中记录prompt（用户输入）和completion（模型输出）的详细内容，包括文本、推理过程、角色及工具调用信息。此外，系统还同步记录了各阶段的时序指标，如环境交互、模型生成、评分计算等环节的耗时，确保数据结构完整且可复现。

特点

该数据集的核心特点在于其精细化的多层级结构，不仅涵盖任务执行的输入输出，还深度集成了性能监控与社会化学习所需的多模态信息。每个样本均包含奖励值、时间消耗、延迟等量化指标，并附有详尽的info字段，其中标明了任务类别、难度等级、完成状态以及截断原因。特别值得注意的是，token_usage字段细粒度地统计了输入与输出的令牌数量，而timing子结构则提供了从环境设置到最终评分的全链路时间线，这为分析模型行为效率与优化策略提供了宝贵资源。

使用方法

使用本数据集时，研究者可将数据加载为标准的HuggingFace Dataset对象，并依据split字段（仅含训练集）进行后续处理。推荐重点关注trace_id和rollout_number字段，用于筛选和分析特定探索路径。通过解析struct嵌套的info、timing及token_usage字段，可进行多维度分析，例如按任务难度分组评估奖励分布，或结合各阶段耗时诊断推理瓶颈。此外，数据集的completion字段包含reasoning_content，适用于训练具有逐步推理能力的语言模型或进行行为克隆研究。

背景与挑战

背景概述

随着代码生成与自动修复领域对大语言模型应用需求的激增，面向特定编程场景的高质量轨迹数据成为提升模型推理与交互能力的核心资源。py-bug-trace-laguna-xs-2-l2-rollouts数据集由研究团队在近年创建，聚焦于Python程序错误修复过程中的多步交互轨迹，记录了从问题提示、模型完成到奖励评估的完整链条。该数据集旨在支持强化学习与监督微调范式下的代码生成模型训练，探索模型在多轮工具调用与错误回溯场景中的表现。其精细化的结构设计，包括推理内容、延迟指标与令牌使用量等字段，为分析模型决策过程与效率提供了宝贵素材，对推动可交互代码智能体的发展具有重要参考价值。

当前挑战

该数据集所解决的领域核心挑战在于如何准确捕捉与复现复杂Python错误修复过程中模型的多步推理与工具调用行为。现有数据集多侧重于单轮代码生成或静态样本，缺乏对动态交互与失败恢复过程的刻画。构建过程中，数据收集面临任务多样性与环境噪声的干扰，需精心设计提示与奖励机制以确保轨迹有效性。同时，时间与延迟记录的引入增加了数据清洗与对齐的难度，如何平衡样本数量与质量、避免过拟合至特定错误类型，亦是亟需攻克的难题。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，py-bug-trace-laguna-xs-2-l2-rollouts数据集专为强化学习环境下的大语言模型代码调试能力评估而设计。其经典使用场景聚焦于智能体在多轮交互中追踪Python程序执行轨迹，通过结构化轨迹数据（包括prompt、completion、奖励信号及详细时序信息）训练模型逐步定位并修复语法或逻辑缺陷。研究人员通常利用该数据集对模型进行行为克隆或基于奖励的微调，以提升其在复杂代码仓库中进行断点调试、变量追踪与错误根因分析的综合素养。

实际应用

在工业级软件运维场景中，该数据集可驱动智能调试助手的开发——例如，基于其训练出的模型能自动分析持续集成流水线中的失败测试日志，准确定位异常堆栈对应的源码位置。实际应用时，开发者可将模型嵌入本地IDE或云端开发环境，使其在代码提交前模拟多步调试流程，自动生成修复建议。此外，数据集中包含的延迟指标可直接用于优化生产环境中的推理服务部署策略，确保响应速度满足实时编码辅助需求。这种从原型验证到产品落地的转化，正推动着自动化调试从学术研究走向工程实践。

衍生相关工作

该数据集催生了一系列开创性工作，其中最显著的是将多轮轨迹数据用于强化学习中的过程奖励建模，衍生了诸如RewardShaping-for-Code-Repair与Stepwise-Bug-Fix等专门针对代码调试过程监督的奖励函数设计方法。后续工作还探索了基于回溯搜索的决策树蒸馏算法，通过数据集中丰富的时序信息构建轻量级调试模型。值得关注的是，该数据集与近期提出的CodeAgent框架结合，催生了能够自主规划调试步骤并动态调整搜索策略的智能体系统，相关成果已在自动化软件工程顶会上引发广泛讨论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集