AISE-TUDelft/PY150k

Name: AISE-TUDelft/PY150k
Creator: AISE-TUDelft
Published: 2023-08-11 11:47:47
License: 暂无描述

Hugging Face2023-08-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/AISE-TUDelft/PY150k

下载链接

链接失效反馈

官方服务：

资源简介：

PY150行补全数据集，源自CodeXGlue项目，用于代码补全任务。数据集分为训练集（95000样本）、验证集（5000样本）和测试集（50000样本）。数据集特征包括索引、输入文本、目标文本、哈希值和完整行信息，文本数据类型为字符串。数据集总大小为1047485296字节，下载大小为277005224字节，遵循cc0-1.0许可证。

PY150 Line Completion Dataset, derived from the CodeXGlue project, is designed for code completion tasks. The dataset is split into a training set (95,000 samples), a validation set (5,000 samples) and a test set (50,000 samples). Its features include index, input text, target text, hash value and full line information, where the text data is of string type. The total size of the dataset is 1,047,485,296 bytes and the download size is 277,005,224 bytes. The dataset is licensed under the cc0-1.0 license.

提供机构：

AISE-TUDelft

原始信息汇总

数据集概述

数据集名称

名称: PY150 Line Completion Dataset
别名: PY150k

数据集配置

配置名称: default
数据文件:
- 训练集: data/train-*
- 开发集: data/dev-*
- 测试集: data/test-*

数据集特征

索引: int64
输入: string
gt: string
哈希: int64
完整行: string

数据集分割

训练集:
- 示例数量: 95000
- 字节数: 662931126
开发集:
- 示例数量: 5000
- 字节数: 41218084
测试集:
- 示例数量: 50000
- 字节数: 343336086

数据集大小

下载大小: 277005224
数据集大小: 1047485296

许可证

许可证类型: cc0-1.0

大小类别

大小范围: 100K<n<1M

搜集汇总

数据集介绍

构建方式

在软件工程与程序语言处理领域，大规模代码数据集的构建对推动智能编程辅助工具的发展至关重要。PY150k数据集源自CodeXGlue项目中的代码资源，通过系统化采集与处理Python源代码文件构建而成。其构建过程聚焦于代码行的自动补全任务，从开源代码库中提取了约15万条代码行实例，并依据标准机器学习流程划分为训练集、开发集与测试集，确保了数据在模型训练与评估中的有效性与代表性。

特点

该数据集以Python代码行为核心，突出了其在代码自动补全任务中的专业性与实用性。每条数据记录包含索引、输入序列、目标补全内容、哈希值及完整代码行，结构清晰且便于模型处理。数据集规模适中，涵盖近10万训练样本与5万测试样本，平衡了数据多样性与计算效率，适用于深度学习模型的训练与验证，为代码智能研究提供了高质量的基础资源。

使用方法

在代码生成与补全的研究中，PY150k数据集可直接用于训练序列到序列或自回归模型。研究人员可通过HuggingFace平台加载数据，利用其预划分的训练、开发与测试分割进行模型训练、调参与评估。输入字段通常作为模型上下文，目标字段则用于生成预测，通过对比预测代码与真实补全内容，可有效衡量模型在代码行补全任务上的性能，推动自动化编程工具的进步。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，代码自动补全技术旨在提升开发效率与代码质量。PY150k数据集由AISE-TUDelft团队于近年构建，其核心研究问题聚焦于Python代码的下一行预测，即基于给定代码上下文生成后续代码行。该数据集源自微软CodeXGLUE项目中的代码资源，通过大规模真实Python代码库的整理与标注，为代码智能模型提供了丰富的训练与评估基准。它的出现推动了程序理解与生成模型的发展，尤其在深度学习驱动的代码辅助工具研究中具有显著影响力，为学术界和工业界提供了标准化实验平台。

当前挑战

PY150k数据集所解决的领域问题是代码自动补全，其核心挑战在于处理编程语言的复杂语义与结构多样性，例如准确捕捉变量作用域、控制流逻辑及API调用模式，以生成语法正确且功能连贯的代码行。在构建过程中，挑战主要源于数据清洗与标准化：原始代码库包含大量噪声，如注释、格式不一致或错误片段，需通过自动化工具进行过滤与对齐；同时，确保数据平衡性以避免偏见，并维护代码片段的完整性以支持有效上下文建模，这些步骤均需精细设计以保障数据集质量。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，代码自动补全技术致力于提升开发效率。PY150k数据集作为大规模Python代码行补全基准，其经典使用场景聚焦于训练与评估深度学习模型，特别是基于Transformer架构的序列生成模型。通过提供海量代码片段及其后续行作为监督信号，该数据集使模型能够学习Python编程语言的语法结构、常见模式及上下文依赖关系，从而在给定不完整代码时预测后续合理内容。这一过程不仅模拟了真实编程环境中的智能辅助场景，也为代码理解与生成研究奠定了数据基础。

解决学术问题

代码补全研究长期面临数据稀缺与质量参差的挑战。PY150k数据集通过提供标准化、大规模的真实世界Python代码行对，有效解决了模型训练中数据一致性与覆盖度不足的学术问题。它支持研究者系统探索代码的统计规律与语义特征，促进了神经代码补全、程序合成等方向的量化评估。该数据集的意义在于建立了可复现的实验基准，推动了代码智能领域从启发式方法向数据驱动范式的转变，对提升自动化编程工具的准确性与泛化能力产生了深远影响。

衍生相关工作

围绕PY150k数据集，学术界与工业界衍生出一系列经典研究工作。例如，研究者在CodeXGLUE基准框架下，利用该数据集对比了GPT、CodeBERT等预训练模型在代码补全任务上的性能。后续工作进一步探索了结合抽象语法树（AST）的结构化信息增强、针对特定库或领域的微调策略，以及多模态代码表示学习。这些研究不仅深化了对代码语义的理解，也催生了如IntelliCode等先进商业工具的核心算法，持续推动着智能编程助手的技术演进。

以上内容由遇见数据集搜集并总结生成