five

data_complete.csv

收藏
github2025-07-21 更新2025-08-01 收录
下载链接:
https://github.com/METR/Measuring-Early-2025-AI-on-Exp-OSS-Devs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了研究中开发者完成的所有有效问题。数据字段包括开发者ID、问题ID、无AI访问时的预计时间、有AI访问时的预计时间、任务熟悉度、外部资源需求、AI处理状态、初始实现时间和审查后实现时间等。

This dataset contains all valid questions completed by developers in the study. The data fields include developer ID, question ID, estimated time without AI access, estimated time with AI access, task familiarity, external resource requirements, AI processing status, initial implementation time, and post-review implementation time, among others.
创建时间:
2025-07-12
原始信息汇总

数据集概述

数据集基本信息

数据集内容

  • 核心数据文件: data_complete.csv
  • 数据描述: 包含研究中开发者完成的所有有效问题的数据。

数据字段说明

  • dev_id: 唯一标识每个开发者的整数。
  • issue_id: 唯一标识每个问题的整数(1至246)。
  • predicted_time_no_ai: 开发者预估在没有AI协助下完成任务所需时间(分钟)。
  • predicted_time_ai_allowed: 开发者预估在有AI协助下完成任务所需时间(分钟)。
  • Prior Task Exposure (1-5): 开发者对该类型任务的熟悉程度(1为不熟悉,5为非常熟悉)。部分问题缺失此字段。
  • External Resource Needs (1-3): 开发者预估解决问题所需的外部资源数量(1为无需资源,3为需要大量资源)。部分问题缺失此字段。
  • ai_treatment: 0表示允许使用AI,1表示不允许使用AI。
  • initial_implementation_time: 开发者提交拉取请求所需时间(分钟)。部分问题缺失此字段。
  • post_review_implementation_time: 开发者修复拉取请求至合并所需时间(分钟)。部分问题缺失此字段。

回归分析

  • 依赖安装:

    pip install statsmodels==0.14.4 scipy==1.15.2

  • 运行回归:

    python regression.py --input-data data_complete.csv

  • 输出结果:

    Regression calculated speedup of: 0.188 CI calculed with stderr=Homoskedastic: (0.013, 0.395) CI calculed with stderr=Robust (HC3): (0.013, 0.394) CI calculed with stderr=Clustered By Dev: (0.016, 0.39)

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集构建于一项关于早期2025年AI技术对经验丰富的开源开发者生产力影响的实证研究。研究团队通过精心设计的实验,收集了246个有效问题的完成数据,涵盖了开发者在有无AI辅助条件下的时间预估与实际实现时间。数据采集过程中采用了预随机化估计方法,开发者需分别预估两种情境下的任务耗时,并记录实际开发各阶段的时间消耗。为确保数据质量,研究还引入了任务熟悉度和外部资源需求等辅助评估维度,部分指标在研究中后期进行了优化补充。
特点
数据集的核心特征体现在其多维度的生产力测量体系。除基础的开发时间记录外,还包含开发者对任务的主观难度评估(1-5级)和预期资源需求(1-3级),为分析AI辅助效果提供了丰富的协变量。特别值得注意的是,数据集采用双盲实验设计,通过ai_treatment字段严格区分对照组与实验组。时间数据细分为初始实现时间和代码审查后修改时间两个阶段,这种分段式记录方式能够精准捕捉AI技术在不同开发阶段的影响差异。部分字段存在选择性缺失,反映了真实研究中数据收集方案的动态优化过程。
使用方法
该数据集主要服务于计量经济学分析,配套提供的回归脚本可直接处理CSV格式的原始数据。使用者需通过Python环境调用statsmodels和scipy库,执行命令python regression.py --input-data data_complete.csv即可复现核心回归分析。数据中的时间比值采用特殊编码(0.188表示E(有AI时间)/E(无AI时间)-1),解读时需注意其经济学含义。对于扩展研究,建议重点利用dev_id和issue_id的对应关系,结合初始预估时间与实际耗时的差异,深入探究个体开发者特征与AI辅助效果的交互作用。
背景与挑战
背景概述
数据集data_complete.csv源于2025年一项关于人工智能对开源开发者生产力影响的实证研究,由METR研究机构主导并发表于arXiv预印本平台。该研究旨在量化评估早期AI工具对经验丰富的开源开发者在任务完成效率方面的实际作用,通过严谨的随机对照实验设计,收集了246个开发任务的多维度时间指标与主观评估数据。研究团队创新性地采用双盲实验方法,对比开发者在使用AI辅助与纯人工操作条件下的时间消耗差异,为AI赋能软件开发领域的效能评估提供了首个大规模实证基准。
当前挑战
该数据集面临的核心挑战体现在研究设计与数据采集两个层面。在领域问题层面,如何准确界定AI工具对非线性开发流程的影响存在方法论难题,初始假设中AI加速开发的预期与实证显示的效率降低现象形成显著矛盾。数据构建过程中,开发者主观时间预测与实际执行时间的偏差控制、任务熟悉度与资源需求等协变量的动态采集不完整、以及代码审查阶段时间数据的部分缺失,均为因果推断带来混杂变量干扰。此外,实验中期引入的新指标导致的数据结构非一致性,进一步增加了统计建模的复杂度。
常用场景
经典使用场景
在人工智能与软件开发效率的交叉研究领域,data_complete.csv数据集被广泛用于量化分析AI辅助工具对资深开源开发者生产力的影响。该数据集通过记录开发者在有无AI支持下的任务预估时间、实际实现时间等关键指标,为研究者提供了实证分析的基础。尤其在控制变量(如开发者熟悉度、外部资源需求)的条件下,该数据集能够清晰展现AI介入对开发流程不同阶段的时间消耗差异。
解决学术问题
该数据集有效解决了技术采纳研究中难以隔离变量干扰的经典难题。通过预随机化采集的预估时间数据,结合开发者实际任务表现,研究者能够区分AI工具的真实效用与开发者主观预期偏差。其包含的多维度时间指标(初始实现时间、代码审查后修改时间)更填补了现有文献中对于AI影响开发全周期效率的测量空白,为技术效用评估提供了方法论范式。
衍生相关工作
基于该数据集的核心发现,后续研究衍生出三个重要方向:其一是开发新型实验设计框架,如《IEEE Transactions on Software Engineering》提出的双重匿名随机对照试验方法;其二是构建开发者-工具适配度预测模型,典型代表为NeurIPS 2026的元学习研究;其三则催生了针对代码审查阶段的专用AI工具研发,如GitHub Copilot X中集成的审查耗时预测功能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作