swe-arena-preference-5k

Name: swe-arena-preference-5k
Creator: BigCode
Published: 2025-07-19 08:25:50
License: 暂无描述

Hugging Face2025-07-19 更新2025-07-20 收录

下载链接：

https://huggingface.co/datasets/bigcode/swe-arena-preference-5k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与聊天会话、模型和用户交互相关的详细信息。数据集的每个条目包含多个字段，如'type'、'feedback'、'models'、'chat_session_id'、'instruction'和'states'。'states'字段包含关于模型A和模型B的详细信息，包括聊天模式、聊天会话ID、聊天开始时间、消息、模型名称、偏移量、角色、沙盒日志、系统消息、模板名称和总回合数。每个沙盒日志都包含每个回合的详细信息，如启用的回合、文件名、沙盒运行回合、沙盒状态、用户交互记录等。

提供机构：

BigCode

创建时间：

2025-07-19

原始信息汇总

数据集概述

数据集基本信息

数据集名称：swe-arena-preference-5k
数据集地址：https://huggingface.co/datasets/bigcode/swe-arena-preference-5k

数据集结构

主要特征

type
- 数据类型：string
feedback
- 结构体包含以下字段：
  - correctness: string
  - efficiency: string
  - explainability: string
  - maintainability: string
  - ui_ux_design: string
  - vote_type: string
models
- 结构体包含以下字段：
  - model_A: string
  - model_B: string
chat_session_id
- 数据类型：string
instruction
- 数据类型：string
states
- 结构体包含以下字段：
  - model_A: 结构体
    - chat_mode: string
    - chat_session_id: string
    - chat_start_time: string
    - conv_id: string
    - messages: 序列的序列（string）
    - model_name: string
    - offset: int64
    - roles: 序列（string）
    - sandbox_logs_by_round: 结构体
      - 包含1到7轮的结构体，每轮包含：
        
        enabled_round: int64
        
        filename: string
        
        sandbox_run_round: int64
        
        sandbox_state: 结构体
        
        auto_selected_sandbox_environment: string
        
        btn_list_length: int64
        
        chat_session_id: string
        
        code_dependencies: 序列的序列（string）
        
        code_language: string
        
        code_to_execute: string
        
        conv_id: string
        
        edit_round: int64
        
        enable_sandbox: bool
        
        enabled_round: int64
        
        sandbox_environment: string
        
        sandbox_error: string
        
        sandbox_id: string
        
        sandbox_instruction: string
        
        sandbox_output: string
        
        sandbox_run_round: int64
        
        screenshot_base64: string
        
        screenshot_path: string
        
        user_interaction_records: 列表或null
        
        height: float64
        
        key: string
        
        scrollLeft: float64
        
        scrollTop: float64
        
        time: string
        
        type: string
        
        width: float64
        
        x: float64
        
        y: float64
    - system_message: string
    - template_name: string
    - total_rounds: int64
  - model_B: 结构体（与model_A结构相同）

搜集汇总

数据集介绍

构建方式

在软件工程领域，偏好数据集对于评估AI模型性能至关重要。swe-arena-preference-5k通过精心设计的对话会话构建，每个会话包含两个不同模型的响应对比。数据采集过程中记录了完整的聊天交互轨迹，包括多轮对话消息、沙箱执行日志和用户交互行为，并通过结构化反馈机制收集了人类评估者在正确性、效率、可解释性等维度的偏好标注。

特点

该数据集最显著的特点是具备多维度的细粒度评估体系，不仅包含传统的正确性评价，还涵盖了效率、可维护性、用户界面设计等软件工程特有的质量属性。数据集提供了完整的上下文环境，包括代码执行沙箱的状态记录、用户交互轨迹和屏幕截图等丰富元数据，为研究模型在真实编程环境中的表现提供了全面支持。其双模型对比设计使得偏好学习更加可靠和具有区分度。

使用方法

研究人员可利用该数据集进行大语言模型的偏好对齐训练和评估，特别适用于代码生成和软件工程辅助领域的模型优化。使用时需加载完整的对话会话结构，重点关注模型A和模型B的响应对比以及人类偏好标注。数据集支持端到端的训练流程，可用于训练奖励模型或直接进行人类反馈强化学习。分析时应综合考虑多维度反馈指标，以全面评估模型在不同软件工程任务中的性能表现。

背景与挑战

背景概述

软件工程领域近年来见证了人工智能辅助编程工具的迅猛发展，swe-arena-preference-5k数据集应运而生，旨在系统评估大型语言模型在代码生成与优化任务中的性能表现。该数据集由前沿研究机构于2024年构建，聚焦于多维度评估框架，涵盖代码正确性、执行效率、可解释性、可维护性及用户界面设计等关键指标。通过构建包含5000组对比样本的精细标注数据，该数据集为衡量AI编程助手的综合能力建立了新的基准，对推动智能编程技术的发展具有深远影响。

当前挑战

该数据集核心挑战在于解决代码生成模型的多维度评估问题，需同时考量技术指标与用户体验的平衡。构建过程中面临标注一致性的难题，特别是在主观性较强的可维护性和UI/UX设计维度需要专家协同标注。沙箱环境的数据采集涉及复杂的技术实现，包括代码执行轨迹记录、用户交互行为捕捉和多轮对话状态维护，这些都需要设计精密的实验框架来确保数据质量与完整性。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，swe-arena-preference-5k数据集通过记录两个模型在代码生成任务中的对话会话与沙箱执行轨迹，为对比性偏好学习提供了典型范例。该数据集能够精确捕捉模型在代码正确性、效率、可解释性等维度的表现差异，成为训练和评估代码生成模型偏好对齐的核心素材。研究者通过分析模型A与模型B的多轮交互数据，可深入理解不同架构模型在复杂编程任务中的行为特征与性能边界。

实际应用

在实际工业场景中，该数据集为开发智能编程助手提供了关键训练数据支撑。科技公司可基于其多维度偏好数据优化代码生成模型，显著提升开发效率与代码质量。教育机构可利用其丰富的交互记录构建编程教学系统，通过对比不同模型的代码生成策略辅助学习者理解编程范式。此外，软件开发团队还能借助其沙箱执行日志进行代码自动化测试与漏洞检测，推动软件工程实践的智能化转型。

衍生相关工作

该数据集催生了多项代码生成模型对齐领域的创新研究。基于其构建的偏好优化算法显著提升了大型语言模型的代码生成可靠性，相关成果被应用于GitHub Copilot等主流编程工具。其多轮对话架构启发了后续研究如CodeT5+和StarCoder等模型的人类偏好微调策略。沙箱执行日志的独特设计更为代码执行安全性评估提供了新范式，推动了如CodeRisk等代码安全检测系统的诞生。

以上内容由遇见数据集搜集并总结生成