five

Jupyter Notebook Edits Dataset|机器学习数据集|代码编辑数据集

收藏
arXiv2025-01-17 更新2025-01-18 收录
机器学习
代码编辑
下载链接:
https://doi.org/10.5281/zenodo.14281690
下载链接
链接失效反馈
资源简介:
该数据集由滑铁卢大学的研究团队创建,旨在捕捉Jupyter笔记本在机器学习工作流中的维护和编辑模式。数据集包含48,398条编辑记录,源自792个机器学习仓库的20,095次修订,涵盖了6.63百万行代码。数据集详细记录了单元格和行级别的修改,并包含提交信息等元数据。数据集的创建过程通过GitHub API获取了1000个最受欢迎的Jupyter笔记本仓库,并通过Git日志和差异分析工具提取了编辑信息。该数据集的应用领域主要集中在机器学习代码的维护和自动化编辑任务,旨在通过大语言模型(LLMs)提升代码编辑的效率和准确性。
提供机构:
滑铁卢大学
创建时间:
2025-01-17
AI搜集汇总
数据集介绍
main_image_url
构建方式
Jupyter Notebook Edits Dataset 的构建基于对 GitHub 上 792 个机器学习仓库的 20,095 次修订进行深入分析,提取了 48,398 次 Jupyter Notebook 编辑记录。数据收集过程通过 GitHub Search API 筛选出与 Jupyter Notebook 和机器学习相关的高星仓库,随后使用 git log 和 git show 工具提取每次修订的详细信息,包括提交前后的代码内容、提交消息以及单元格和行级别的差异。通过 SequenceMatcher 模块,数据集进一步细化了单元格和行级别的修改,确保了数据的高粒度性。最终,数据集经过过滤和去重处理,保留了具有实际意义的编辑记录。
特点
该数据集的特点在于其高粒度和广泛覆盖性。它不仅捕捉了 Jupyter Notebook 中单元格和行级别的修改细节,还涵盖了 792 个机器学习仓库的 6.63 百万行代码。数据集中的编辑行为高度局部化,平均每次修订仅修改 166 行代码,反映了开发者在实际维护中的增量式修改模式。此外,数据集还包含了丰富的元数据,如提交消息,为理解开发者的编辑意图提供了重要线索。与现有数据集相比,该数据集更注重真实机器学习开发场景,提供了对局部化编辑和增量维护实践的深入洞察。
使用方法
Jupyter Notebook Edits Dataset 可用于研究机器学习代码的维护模式,特别是通过大语言模型(LLMs)预测代码编辑行为。数据集支持两种推理策略:少样本提示(few-shot prompting)和微调(fine-tuning)。在少样本提示中,模型通过提供少量示例来预测文件级别或单元格级别的代码修改。微调则通过在大量 Jupyter Notebook 数据上进行监督学习,提升模型在特定任务上的表现。数据集还可用于评估 LLMs 在处理复杂机器学习代码编辑任务时的性能,帮助研究者探索如何通过上下文信息提升模型的表现。
背景与挑战
背景概述
Jupyter Notebook Edits Dataset 是由滑铁卢大学的研究团队于2025年创建的,旨在解决机器学习开发者在Jupyter Notebook中进行代码维护时的挑战。该数据集包含了来自GitHub上792个机器学习仓库的20,095次修订中的48,398次编辑记录,涵盖了单元格级别和行级别的修改细节。Jupyter Notebook作为机器学习开发中的核心工具,广泛用于数据处理和模型训练,但其维护过程常常面临代码复杂性和碎片化编辑的挑战。该数据集的创建填补了现有研究中关于Jupyter Notebook代码编辑行为的空白,为理解机器学习工作流中的实际维护模式提供了重要基础。
当前挑战
Jupyter Notebook Edits Dataset 的构建和应用面临多重挑战。首先,该数据集旨在解决机器学习代码维护中的实际问题,尤其是如何自动化处理Jupyter Notebook中的代码编辑任务。然而,尽管大型语言模型(LLMs)在代码生成和理解任务中表现出色,但在该数据集上的表现仍然不尽如人意,即使经过微调,模型的准确率依然较低,表明真实世界的机器学习维护任务具有极高的复杂性。其次,在数据集构建过程中,研究团队需要从大量GitHub仓库中提取并处理Jupyter Notebook的编辑记录,涉及复杂的版本控制数据解析和编辑行为的细粒度分析。此外,数据集中编辑行为的局部性特征(平均每次修改仅涉及166行代码)进一步增加了模型预测的难度,要求模型能够精准捕捉上下文信息以生成有效的代码修改建议。
常用场景
经典使用场景
Jupyter Notebook Edits Dataset 主要用于研究机器学习开发者在 Jupyter Notebook 中的代码编辑行为。该数据集通过捕捉 GitHub 上 792 个机器学习仓库中的 48,398 次编辑记录,提供了细粒度的单元级和行级修改信息。研究者可以利用这些数据深入分析开发者在维护机器学习工作流时的编辑模式,尤其是在代码修复、功能添加和调试过程中的行为。
解决学术问题
该数据集填补了现有研究中关于 Jupyter Notebook 代码编辑行为的数据空白,为理解机器学习开发中的维护模式提供了基础。通过分析这些编辑记录,研究者能够探索如何利用大语言模型(LLMs)自动化代码编辑任务,从而提升开发效率。此外,该数据集还为评估 LLMs 在复杂代码编辑任务中的表现提供了基准,揭示了现有模型在实际应用中的局限性。
衍生相关工作
该数据集推动了多项相关研究,特别是在大语言模型(LLMs)应用于代码编辑任务方面。例如,研究者利用该数据集评估了 DeepSeek-Coder 等模型在预测代码编辑中的表现,并探索了少样本学习和微调策略对模型性能的影响。此外,该数据集还激发了关于如何通过上下文信息提升模型编辑能力的研究,为未来开发更智能的代码辅助工具奠定了基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录

中国人口普查分县数据(2000、2010、2020年)

中国人口普查分县数据(2000、2010、2020年)数据集是中国第五次、第六次、第七次人口普查分县数据

国家地球系统科学数据中心 收录

SWaT Dataset

SWaT Dataset是一个用于工业控制系统(ICS)安全研究的数据集,包含了模拟的网络攻击和正常操作的数据。该数据集由新加坡科技设计大学(Singapore University of Technology and Design)发布,旨在帮助研究人员开发和测试用于检测工业控制系统中网络攻击的算法和模型。

itrust.sutd.edu.sg 收录