py-bug-trace-laguna-xs-2-l1-rollouts
收藏Hugging Face2026-05-31 更新2026-06-01 收录
下载链接:
https://huggingface.co/datasets/poolside-laguna-hackathon/py-bug-trace-laguna-xs-2-l1-rollouts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含35个对话轨迹样本,用于评估AI模型在任务执行中的表现。每个样本记录完整的对话交互过程,包含prompt(用户输入)和completion(模型响应)字段,其中completion特别包含reasoning_content(推理内容)。数据集提供丰富的评估指标:包括奖励分数(reward、exact_match_reward)、准确度(score、correct)、任务步骤数(num_steps)以及性能指标(总时间total_time、延迟latency_ms、详细时间分解timing、token使用量token_usage)。元数据信息(info字段)包含任务类别(category)、难度级别(difficulty)、完成状态(is_completed)、截断状态(is_truncated)和停止条件(stop_condition)。该数据集适用于模型性能评估、强化学习训练、多轮对话系统测试等场景,特别适合需要细粒度评估推理过程和时间效率的任务。
创建时间:
2026-05-30
原始信息汇总
数据集概述
基本信息
- 数据集名称:py-bug-trace-laguna-xs-2-l1-rollouts
- 托管平台:Hugging Face Datasets
- 数据集大小:下载大小 89254 字节,数据集大小 64863 字节
- 数据划分:仅包含训练集(train),共 35 个样本
特征字段
该数据集包含以下特征:
| 字段名 | 数据类型 | 说明 |
|---|---|---|
| trace_id | string | 追踪 ID |
| example_id | int64 | 示例 ID |
| rollout_number | int64 | 滚动编号 |
| task | null | 任务(空值) |
| prompt | list | 提示信息,包含 content、role、tool_call_id、tool_calls 子字段 |
| completion | list | 完成信息,包含 content、reasoning_content、role、tool_call_id、tool_calls 子字段 |
| answer | null | 答案(空值) |
| reward | float64 | 奖励值 |
| score | null | 分数(空值) |
| correct | null | 是否正确(空值) |
| num_steps | null | 步骤数(空值) |
| total_time | float64 | 总时间 |
| latency_ms | int64 | 延迟(毫秒) |
| created_at | string | 创建时间 |
| info | struct | 详细信息结构体 |
| exact_match_reward | float64 | 精确匹配奖励 |
info 结构体字段
info 字段包含以下子字段:
- category (string):类别
- difficulty (string):难度
- id (string):ID
- is_completed (bool):是否完成
- is_truncated (bool):是否被截断
- metrics (struct):包含 exact_match_reward 和 num_turns
- stop_condition (string):停止条件
- timing (struct):包含 env、generation、model、overhead、scoring、setup、start_time、total 等时间统计
- token_usage (struct):包含 final_input_tokens、final_output_tokens、input_tokens、output_tokens
数据用途
该数据集用于记录 Python 错误追踪(py-bug-trace)相关的滚动生成结果,包含提示、完成信息、奖励值及详细的性能指标和时间统计,适用于强化学习或模型微调场景。
搜集汇总
数据集介绍

构建方式
该数据集源自对Python代码缺陷追踪场景的模拟,通过多轮交互轨迹(rollouts)采集而成。每个样本以trace_id唯一标识一次追踪过程,包含prompt(用户输入)与completion(模型生成)构成的对话历史,以及每次生成后的奖励值(reward)与精确匹配得分(exact_match_reward)。数据构建采用结构化轨迹记录,涵盖任务难度、停止条件、模型耗时、令牌使用量等元信息,最终形成35条训练样本,存储为parquet格式的分片文件。
使用方法
该数据集加载便捷,可通过HuggingFace Datasets库直接读取,支持流式(streaming)模式处理。使用时需导入datasets模块,调用load_dataset方法指定数据集名称与拆分(train)。每条样本具备标准对话结构,可直接用于监督微调或强化学习中的奖励建模。建议结合trace_id进行轨迹完整性验证,并利用reward与exact_match_reward字段进行性能评估,亦可借助timing数据开展模型响应延迟分析。
背景与挑战
背景概述
在软件工程领域,自动化调试与程序修复一直是研究热点,但现有数据集多聚焦于静态代码分析或小规模错误模式,难以支撑大规模、多步交互的智能体学习。py-bug-trace-laguna-xs-2-l1-rollouts数据集由致力于推动代码智能体研究的团队创建,旨在捕捉Python程序缺陷修复过程中的完整交互轨迹。该数据集包含丰富的时序信息、奖励信号以及模型推理过程,为研究基于强化学习的代码修复智能体提供了细粒度的训练与评估基准。其影响力体现在,它弥补了现有公开数据集在动态调试轨迹与多轮交互数据方面的不足,成为连接大语言模型与具体编程环境的关键桥梁。
当前挑战
当前数据集面临的核心挑战之一是领域问题的复杂性:智能体需在真实代码环境中进行多步探索,面临状态空间巨大、错误类型多样以及环境反馈延迟等难题。构建过程同样充满挑战,包括准确记录智能体与环境交互的全链路时序数据,确保工具调用、推理轨迹与奖励信号的因果一致性,以及在有限样本下平衡探索与利用。此外,数据标注与质量校验需兼顾代码语义的准确性与交互逻辑的合理性,这些因素共同构成了推动自动化调试智能体发展的关键瓶颈。
常用场景
经典使用场景
该数据集为软件工程与人工智能交叉领域的研究人员提供了宝贵资源,特别适用于分析和优化基于大语言模型的智能体在执行复杂编程任务时的行为轨迹。其核心应用在于支持对代码生成与调试过程中智能体多轮交互、工具调用及推理链条的深度剖析,通过记录每一轮生成的提示、推理内容、工具调用以及最终答案的奖励信号,使得研究者能够系统性地审视模型在长程任务中的决策路径与错误模式。
解决学术问题
该数据集着力解决了当前大语言模型在复杂软件工程任务中缺少细粒度、结构化行为数据支撑的困境。它使得学术界能够深入研究智能体在故障定位与代码修复等场景下的多步推理能力、工具依赖关系以及奖励稀疏性带来的学习挑战。通过对不同难度任务下模型执行轨迹的量化分析,研究者可以揭示模型在时间成本、步骤效率与最终正确性之间的权衡关系,从而为设计更鲁棒的推理策略与反馈机制提供坚实的实证基础。
实际应用
在实际开发环境中,该数据集可被用于构建和评估面向代码调试的智能辅助系统。开发者可以利用这些包含详尽执行时序与工具调用记录的数据,训练模型更准确地理解用户补全意图、优化多轮对话中的上下文记忆,并提高自动修复代码缺陷的精准度。此外,结合延迟、奖励分数等性能指标,该数据集还能辅助企业级软件工程团队设计智能化程度更高的持续集成与代码审查流程,推动开发工具从被动搜索向主动推理演进。
数据集最近研究
最新研究方向
当前,大语言模型在代码生成与调试领域的应用正如火如荼,而细粒度、多维度的行为追踪数据成为评估模型推理质量的关键。py-bug-trace-laguna-xs-2-l1-rollouts数据集聚焦于Python代码缺陷场景,记录了模型从接收到Prompt到完成多轮交互推理的全链路轨迹,涵盖延迟、令牌消耗、奖励信号及环境交互指标。最新研究方向着力于利用此类含时序与结构化信息的数据,开展强化学习中基于过程奖励的模型微调,探索模型在复杂调试任务中的逐步推理能力。通过解析rollout过程中的中间状态与终止条件,研究者可更精准地衡量模型对程序错误的定位与修复效果,推动代码智能体在真实开发环境中的可靠性提升,为自动化调试与自主编程提供关键支撑。
以上内容由遇见数据集搜集并总结生成



