SWE-Bench-Verified-O1-reasoning-high-results

Hugging Face2024-12-30 更新2024-12-30 收录

下载链接：

https://huggingface.co/datasets/AlexCuadron/SWE-Bench-Verified-O1-reasoning-high-results

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-Bench Verified O1数据集包含了通过CodeAct框架生成的O1模型在软件工程任务中的推理轨迹。该数据集展示了O1模型从初始错误分析到最终补丁生成的完整思维过程。数据集的组织包括原始数据、数据集查看器、推理轨迹和评估数据。原始数据文件为`output.jsonl`，包含了所有问题的聚合轨迹；数据集查看器文件为`dataset_viewer.parquet`，以结构化Parquet文件格式存储，包含关键字段如`issue_name`、`project`、`issue_id`、`num_turns`、`full_conversation_jsonl`、`patch`、`success`和`execution_time`。推理轨迹存储在`llm_completions/`目录下，每个问题对应一个JSONL文件，最多包含30个交互轮次。评估数据存储在`eval_outputs/`目录下，每个问题包含补丁文件、评估脚本、详细指标报告、完整过程日志和测试套件结果。

The SWE-Bench Verified O1 dataset contains the reasoning traces of the O1 model on software engineering tasks, generated via the CodeAct framework. This dataset showcases the complete thought process of the O1 model, spanning from initial error analysis to final patch generation. The dataset is organized into raw data, a dataset viewer, reasoning traces, and evaluation data. The raw data is stored in the file `output.jsonl`, which contains aggregated traces for all problems; the dataset viewer is stored in the structured Parquet file `dataset_viewer.parquet`, which includes key fields such as `issue_name`, `project`, `issue_id`, `num_turns`, `full_conversation_jsonl`, `patch`, `success`, and `execution_time`. Reasoning traces are stored in the `llm_completions/` directory, with one JSONL file per problem, containing up to 30 interaction turns. Evaluation data is stored in the `eval_outputs/` directory, with each problem containing patch files, evaluation scripts, detailed metric reports, full process logs, and test suite results.

创建时间：

2024-12-26

搜集汇总

数据集介绍

构建方式

SWE-Bench-Verified-O1-reasoning-high-results数据集的构建基于CodeAct框架，该框架通过增强基于行动的推理来提升代码生成能力。数据集在OpenHands平台上进行多轮交互式编程任务测试，专注于高推理努力的问题解决。OpenHands采用结构化的行动-观察循环，代理通过文件操作、代码编辑、代码执行和bash命令等明确行动与计算环境交互，每次行动生成相应的观察结果，记录环境变化和执行结果。这些观察结果与历史交互信息被维护在一个按时间顺序排列的事件流中，指导代理的下一步决策。

使用方法

使用该数据集时，首先需安装Hugging Face的datasets库，通过`load_dataset`函数加载数据集。数据集支持基本探索，如获取单个实例的详细信息、计算成功率和项目分布。用户还可以访问成功的补丁内容，进一步分析模型生成的代码更改。对于高级用法，建议参考OpenHands的GitHub仓库，获取更多示例和详细指导。数据集以Parquet文件格式存储，便于高效读取和分析。

背景与挑战

背景概述

SWE-Bench-Verified-O1-reasoning-high-results数据集由加州大学伯克利分校、卡内基梅隆大学以及OpenHands团队于2024年联合发布，旨在评估大型语言模型在软件工程任务中的表现。该数据集基于CodeAct框架构建，专注于通过增强的基于行动的推理来提升代码生成能力。数据集的核心研究问题在于如何通过多轮交互式编程任务，测试O1模型在修复代码错误方面的能力。研究团队在SWE-Bench基准测试中验证了O1模型的性能，成功率达到28.8%，覆盖了500个测试实例。该数据集为软件工程领域的自动化代码修复和程序合成提供了重要的实验数据，推动了相关领域的研究进展。

当前挑战

SWE-Bench-Verified-O1-reasoning-high-results数据集在构建和应用过程中面临多重挑战。首先，软件工程任务的复杂性要求模型具备高度的推理能力，尤其是在多轮交互中保持一致的逻辑和准确性。尽管O1模型在部分任务中表现优异，但其整体成功率仅为28.8%，表明在处理复杂代码修复任务时仍存在显著局限性。其次，数据集的构建依赖于OpenHands框架，该框架要求模型在每次交互中生成精确的动作和观察记录，这对模型的实时推理能力和环境适应性提出了极高要求。此外，数据集的验证过程需要严格的测试和评估，以确保生成的代码补丁能够有效修复问题，这一过程耗时且资源密集。这些挑战不仅反映了当前大型语言模型在软件工程任务中的技术瓶颈，也为未来的研究提供了明确的方向。

常用场景

经典使用场景

在软件工程领域，SWE-Bench-Verified-O1-reasoning-high-results数据集被广泛应用于评估大型语言模型在代码修复和程序合成任务中的表现。通过多轮交互式编程任务，该数据集展示了模型在分析、推理和生成代码补丁过程中的详细步骤，为研究者提供了丰富的实验数据。

解决学术问题

该数据集解决了软件工程中代码修复和程序合成的关键问题，特别是在多轮交互式编程任务中的表现评估。通过提供详细的推理轨迹和代码补丁生成过程，研究者能够深入分析模型在复杂任务中的表现，从而推动代码生成和修复技术的进一步发展。

实际应用

在实际应用中，SWE-Bench-Verified-O1-reasoning-high-results数据集被用于开发自动化代码修复工具和智能编程助手。通过利用数据集中的推理轨迹和代码补丁，开发者能够构建更高效的代码生成和修复系统，提升软件开发的效率和质量。

数据集最近研究