hybrid-diff-ar/stack-v2-sparse-classes-10k

Name: hybrid-diff-ar/stack-v2-sparse-classes-10k
Creator: hybrid-diff-ar
Published: 2026-04-23 02:40:19
License: 暂无描述

Hugging Face2026-04-23 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/hybrid-diff-ar/stack-v2-sparse-classes-10k

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含10,000个Python类样本的快照数据集，主要用于扩散和自回归混合代码生成实验。数据来源于`bigcode/the-stack-v2-dedup`的Python子集，通过Stack v2元数据提取，并使用AST级别的类过滤器进行处理。数据集分为训练集（9,000个样本）、验证集（500个样本）和测试集（500个样本）。每个样本包含自然语言提示、类/方法签名、方法体、完整文本、重构的类代码以及源元数据等信息。数据集还应用了多种过滤器，确保每个类的方法数量、方法文档字符串、方法体行数等符合特定要求。

This is a 10,000-sample snapshot for Diffusion + Autoregressive hybrid code generation experiments. The data is extracted from `bigcode/the-stack-v2-dedup`, Python subset. The extraction uses Stack v2 metadata as source of truth, groups candidates by `repo_name + revision_id`, fetches files with git partial fetch + sparse checkout, then applies AST-level class filters. The dataset is split into training (9,000 samples), validation (500 samples), and test (500 samples) sets. Each sample includes a natural-language prompt, class/method signatures, method bodies, full text, reconstructed class code, and source metadata. Various filters are applied to ensure each class meets specific requirements such as the number of methods, method docstrings, and method body lines.

提供机构：

hybrid-diff-ar

5,000+

优质数据集

54 个

任务类型

进入经典数据集