jtliang/decode

Name: jtliang/decode
Creator: jtliang
Published: 2026-05-02 04:44:26
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/jtliang/decode

下载链接

链接失效反馈

官方服务：

资源简介：

DECODE是一个包含53.6K个真实IDE代码编辑的数据集，这些编辑是针对AI生成代码的修改，来自1000多名开发者在Python、TypeScript和JavaScript上的操作。与主要基于Git提交训练代码LLM不同，DECODE捕获了开发者对AI生成代码的中间手动编辑，这些编辑反映了Git历史完全忽略的现实编辑行为。这些编辑是对AI完成中不完美的响应，提供了关于开发者何时、为什么以及如何修改AI生成代码的细粒度信号。数据集中的每一行代表对AI完成的一个代码编辑，包含原始AI完成ID、编辑事件ID、时间戳、开发者ID、AI模型信息以及代码在不同粒度上的状态和编辑内容。

DECODE is a dataset of 53.6K real-world, in-IDE code edits of AI-generated code, collected from 1,000+ developers writing Python, TypeScript, and JavaScript. Unlike LLMs for code which are predominantly trained on Git commits, DECODE captures the intermediate manual edits developers make to AI-generated code, reflecting realistic editing behavior that Git history misses entirely. These edits occur in response to imperfections in AI completions and provide fine-grained signal on when, why, and how developers modify AI-generated code. Each row in the dataset represents a code edit made to an AI completion, containing fields such as the original AI completion ID, edit event ID, timestamps, developer ID, AI model information, and the state of the code at various granularities along with the edit content.

提供机构：

jtliang

搜集汇总

数据集介绍

构建方式

DECODE数据集基于来自超过1000名开发者在Python、TypeScript及JavaScript编程语言中的真实IDE编辑行为构建而成，系统性地捕捉了AI生成代码被手动修改的中间过程。每条数据记录对应一次代码编辑事件，包含原始AI补全的标识符、编辑时间戳、开发者匿名ID、使用的AI模型，以及编辑前后的代码片段与完整文件，实现了从细粒度片段到完整代码文件的层次化覆盖。

使用方法

数据集以HuggingFace格式发布，默认配置下训练集包含约53.6K条样本，每条数据均以结构化字段组织，可直接加载至标准机器学习框架。研究人员可利用字段如'outcome'与'edit_snippet'来训练代码编辑预测模型，或通过'user_id'与'model'进行开发者行为分析与模型性能对比，适用于文本生成任务领域的代码编辑理解与生成研究。

背景与挑战

背景概述

DECODE数据集由Adaption Labs的研究团队于近期创建，旨在捕获开发者在集成开发环境（IDE）中对大语言模型（LLM）生成的代码进行实时编辑的行为。传统代码数据集多基于Git提交记录，仅反映最终成功的代码变更，忽视了开发者为了修正AI生成代码的缺陷而进行的中间手动编辑过程。DECODE通过收集来自1000余名开发者、涵盖Python、TypeScript和JavaScript语言的53.6K条真实编辑样本，填补了这一研究空白。该数据集不仅记录了编辑的时间、模型类型和代码片段，还以多粒度形式呈现了编辑前后的完整状态，为理解人类与AI协作编程中的编辑模式提供了重要资源。其发布对代码生成模型评估、人机交互研究以及代码编辑行为分析等领域产生了深远影响，推动了更符合实际编程场景的AI辅助工具研究。

当前挑战

该数据集面临的核心挑战在于解决领域问题中的行为捕捉与构建过程的复杂性。首先，传统代码数据集多依赖Git提交，忽略了开发者在AI生成代码后立即做出的微调和纠错行为，而DECODE需要准确捕获这些在IDE中频繁发生却难以记录的瞬时编辑，包括何时、为何以及如何修改AI输出。其次，构建过程中面临匿名化与隐私保护的挑战，涉及1000余名真实开发者的代码编辑数据，需在保留编辑细节的同时确保用户身份和代码敏感信息的安全，避免泄露原始AI生成的上下文。此外，数据集的标注一致性保障也是一大难题，由于手动编辑的多样性，如何统一界定跨语言（Python、TypeScript、JavaScript）的编辑类型和粒度，并去除噪声数据，以确保数据质量用于下游任务，是数据构建的关键技术瓶颈。

常用场景

经典使用场景

在代码智能与软件工程研究领域，DECODE数据集为洞察开发者与AI代码补全模型的交互行为提供了宝贵资源。该数据集的经典使用场景在于捕捉开发者对AI生成代码的实时编辑过程，覆盖Python、TypeScript和JavaScript三种主流编程语言。研究人员可利用其超过五万条的编辑记录，分析开发者如何调整模型输出的代码片段，从而揭示AI补全的典型失败模式与人工修正策略。这种细粒度的编辑轨迹数据，相较于传统的Git提交历史，更能反映真实开发环境中的人机协作动态。

解决学术问题

DECODE数据集着力解决了学术研究中长期存在的关键问题：现有代码生成模型评估多基于最终代码正确性，而忽略了开发者对AI输出的中间编辑行为。该数据集提供了从编辑时机、编辑幅度到编辑前后代码状态的完整视图，使研究者能够量化AI补全代码与实际开发者需求之间的差距。其意义在于首次大规模揭示了AI生成代码需要人工修正的普遍性与多样性，为改进代码生成模型的鲁棒性和交互友好性提供了实证基础，推动了对代码型AI系统人机协同效率的深入理解。

实际应用

在实际应用层面，DECODE数据集可被用于训练更贴合开发者使用习惯的代码编辑建议系统。例如，基于该数据集中真实的编辑模式，可以构建能够预测开发者下一编辑动作的智能助手，或者开发自动识别并修正AI代码常见错误的调试工具。此外，IDE插件开发者可依据这些编辑轨迹优化代码补全的交互逻辑，例如在生成代码时考虑开发者历史编辑风格，减少后续手动修改的频率。该数据集还可服务于代码审查流程自动化，帮助检测AI生成代码中易引发人工修正的高风险模式。

数据集最近研究