py-bug-trace-laguna-xs-2-l2-rollouts

Hugging Face2026-05-31 更新2026-06-01 收录

下载链接：

https://huggingface.co/datasets/neomatrix369/py-bug-trace-laguna-xs-2-l2-rollouts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于评估语言模型在工具调用或多轮对话任务中表现的数据集，包含模型交互轨迹和性能指标。数据集由15个训练样本组成，总大小约32KB。每条记录包含唯一的轨迹标识符（trace_id）、示例标识符（example_id）和轮次数（rollout_number）。核心数据包括多轮对话的提示（prompt）和模型完成（completion），其中prompt和completion字段均包含角色（role）、内容（content）、工具调用ID（tool_call_id）和工具调用（tool_calls）等子字段，表明数据集记录了模型与工具交互的对话轨迹。数据集包含丰富的评估指标：奖励分数（reward）、精确匹配奖励（exact_match_reward）、分数（score）、正确性（correct）等。此外，info字段提供了详细的元数据，包括任务类别（category）、难度（difficulty）、完成状态（is_completed）、截断状态（is_truncated）、停止条件（stop_condition）以及性能指标（metrics）。性能指标中记录了精确匹配奖励和对话轮数。数据集还包含详细的时序信息（timing），记录了环境设置、模型生成、评分等各阶段的时间消耗，以及token使用情况（token_usage），包括输入和输出token数量。该数据集适用于评估语言模型在工具增强任务中的表现、分析模型推理过程、研究多轮对话性能以及进行强化学习或奖励建模等任务。

This dataset is designed for evaluating the performance of language models in tool calling or multi-turn dialogue tasks, containing model interaction trajectories and performance metrics. It consists of 15 training samples with a total size of approximately 32KB. Each record includes unique identifiers such as trace_id, example_id, and rollout_number. The core data comprises multi-turn dialogue prompts and model completions, where both prompt and completion fields contain subfields like role, content, tool_call_id, and tool_calls, indicating that the dataset records dialogue trajectories of model-tool interactions. The dataset includes a variety of evaluation metrics: reward score, exact_match_reward, score, correctness, etc. Additionally, the info field provides detailed metadata, including task category, difficulty, completion status (is_completed), truncation status (is_truncated), stop condition, and performance metrics. Performance metrics record exact match rewards and the number of dialogue turns. The dataset also contains detailed timing information, logging time consumption for stages such as environment setup, model generation, and scoring, as well as token usage, including input and output token counts. This dataset is suitable for evaluating language model performance in tool-enhanced tasks, analyzing model reasoning processes, studying multi-turn dialogue performance, and conducting tasks such as reinforcement learning or reward modeling.

创建时间：

2026-05-30

原始信息汇总

数据集概况

数据集名称：py-bug-trace-laguna-xs-2-l2-rollouts
提供者：neomatrix369
存储库地址：https://huggingface.co/datasets/neomatrix369/py-bug-trace-laguna-xs-2-l2-rollouts
数据集大小：下载大小 61,105 字节，数据集大小 32,023 字节
数据划分：仅包含训练集（train），共 15 个样本

数据特征

每条记录包含以下字段：

字段名	数据类型	说明
trace_id	string	追踪标识符
example_id	int64	示例编号
rollout_number	int64	展开编号
task	null	任务信息（空）
prompt	list of objects	提示信息列表，每个对象包含 content（字符串）、role（字符串）、tool_call_id（字符串）、tool_calls（列表，空）
completion	list of objects	完成信息列表，每个对象包含 content（字符串）、reasoning_content（字符串）、role（字符串）、tool_call_id（字符串）、tool_calls（列表，空）
answer	null	答案（空）
reward	float64	奖励值
score	null	得分（空）
correct	null	是否正确（空）
num_steps	null	步数（空）
total_time	float64	总耗时
latency_ms	int64	延迟（毫秒）
created_at	string	创建时间
info	struct	详细信息结构体，包含：<br>- category（字符串）：类别<br>- difficulty（字符串）：难度<br>- id（字符串）：ID<br>- is_completed（布尔）：是否完成<br>- is_truncated（布尔）：是否截断<br>- metrics（结构体）：包含 exact_match_reward（float64）和 num_turns（float64）<br>- stop_condition（字符串）：停止条件<br>- timing（结构体）：包含环境（env）、生成（generation）、模型（model）、开销（overhead）、评分（scoring）、设置（setup）、开始时间（start_time）、总计（total）等时间信息<br>- token_usage（结构体）：包含最终输入 token 数（final_input_tokens，int64）、最终输出 token 数（final_output_tokens，int64）、输入 token 数（input_tokens，float64）、输出 token 数（output_tokens，float64）
exact_match_reward	float64	精确匹配奖励值

数据用途

该数据集用于记录 Python 错误追踪相关的展开（rollout）数据，每条记录包括提示（prompt）、完成（completion）、奖励（reward）、时间信息（total_time、latency_ms）、详细信息（info）等，适用于强化学习或评估场景，样本量为 15。

搜集汇总

数据集介绍

构建方式

该数据集基于Python代码缺陷跟踪任务构建，通过对模型在复杂编程环境中的多次交互轨迹进行采样与记录，形成了包含15条示例的训练集。每条数据以trace_id唯一标识，记录了从任务提示到最终完成的全过程，包括多轮对话的prompt与completion序列、工具调用信息以及每步时间戳。数据集中还内嵌了奖励信号（reward）与精确匹配得分（exact_match_reward），用以评估模型输出的质量。此外，info字段详细标注了任务的类别、难度、是否完成、是否截断以及令牌使用量等元信息，确保了构建过程的高度结构化与可复现性。

特点

该数据集的核心特色在于其细粒度的时序与性能监控能力。通过total_time、latency_ms以及info.timing中分阶段的时间记录（如环境、生成、评分、设置等），研究者可深入分析模型在复杂编程任务中的推理效率与响应延迟。同时，token_usage字段提供了输入与输出令牌的精确计数，支持对模型计算开销的量化评估。数据集还囊括了多轮交互中的工具调用与角色切换信息，为研究基于调用的编程辅助系统（如代码修复、调试）提供了丰富的多模态交互样本。

使用方法

数据集适用于训练和评估基于强化学习或监督微调的代码生成与调试模型。用户可加载JSON格式数据，利用trace_id分组对齐同一任务的多次rollout（展开轨迹），以分析策略稳定性。reward与exact_match_reward字段可直接作为奖励信号用于策略梯度优化。通过prompt与completion中的多轮对话结构，可构建序列到序列的微调任务，利用tool_calls字段增强模型调用外部工具的能力。此外，timing与token_usage数据可用于训练延迟敏感型模型或进行效率导向的模型压缩实验。

背景与挑战

背景概述

py-bug-trace-laguna-xs-2-l2-rollouts数据集是一个面向Python程序缺陷追踪与智能修复研究的高质量交互轨迹数据集。该数据集由Laguna研究团队于近年构建，旨在为大型语言模型在多轮交互式代码修复任务中的推理与行动能力提供基准。其核心研究问题聚焦于如何利用强化学习中的rollout（展开）策略，模拟智能体在执行代码修复时的多步决策过程，并通过细粒度的奖励信号（如exact_match_reward）来评估修复的准确性。数据集记录了完整的交互会话，包括提示(prompt)、完成(completion)、时间戳、延迟以及详细的时序与令牌使用信息，为研究模型在复杂软件工程环境中的长程推理、工具调用与自我纠错能力提供了宝贵的语料。该数据集的发布填补了高质量、结构化交互式代码修复轨迹数据的空白，对推动自动化程序修复（APR）与代码智能研究具有重要示范意义。

当前挑战

该数据集所解决的领域问题挑战在于，现有的程序缺陷修复研究多依赖静态代码分析或单轮修复模型，难以应对需要多步调试、环境交互与复杂工具调用的真实场景。具体挑战包括：1) 如何在动态、多回合的交互中准确捕捉修复策略的优劣，尤其是当修复路径可能包含冗余或错误的中间步骤时，如何设计有效的奖励机制（如exact_match_reward与score的权衡）；2) 数据构建过程中，如何自动生成多样化的bug trace与rollout轨迹，并确保各示例的难度、类别以及完成状态的均衡分布，避免模型过拟合于特定模式；3) 如何处理因模型生成延迟（latency_ms）、令牌消耗（token_usage）与截断（is_truncated）带来的数据噪声，确保轨迹数据能够真实反映模型在有限资源下的决策能力。

常用场景

经典使用场景

在软件工程与人工智能的交叉领域中，py-bug-trace-laguna-xs-2-l2-rollouts数据集专注于代码缺陷追踪与修复任务的强化学习训练。它记录了多轮交互轨迹，包含提示、补全及奖励信号，常用于训练智能体在Python编程环境下自主定位并修复Bug。研究者通过该数据集中的轨迹数据，可构建基于语言模型的调试代理，使其在复杂代码库中逐步推理并生成修正方案。每一轨迹均携带详细的时序与延迟信息，为评估模型在真实交互场景中的效率与准确性提供了量化基准。

衍生相关工作

围绕py-bug-trace-laguna-xs-2-l2-rollouts，后续涌现了若干具有代表性的学术探索。例如，利用其奖励信号设计面向代码修复的偏好优化方法，将简洁的精确匹配转化为更细粒度的逐步奖励塑造。部分工作则聚焦于轨迹压缩与稀疏化，以降低长对话场景下的计算开销。此外，该数据集还催生了跨语言迁移学习的研究，通过对比Python环境中的调试模式，探索将学习策略应用于Java或C++等语言的可能性。这些衍生工作共同丰富了代码智能在交互式调试领域的理论体系与方法论工具箱。

数据集最近研究