five

Fraser/python-lines

收藏
Hugging Face2021-02-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Fraser/python-lines
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从CodeSearchNet数据集中提取的单行Python代码。数据集用于测试变分自编码器潜在空间的有效性,通过测试随机/中间潜在点中有多少可以贪婪地解码为有效的Python代码。每行数据包含一行可解析的Python源代码,大多数代码行少于100个字符,所有代码行都少于125个字符,并且所有代码都可以解析为Python3的抽象语法树(AST)。数据集共包含260万行代码。

This dataset comprises single-line Python code extracted from the CodeSearchNet dataset. It is designed to evaluate the validity of the latent space of Variational Autoencoders (VAE), by assessing how many random or intermediate latent points can be greedily decoded into valid Python code. Each entry in the dataset contains one line of parsable Python source code: the majority of these lines are fewer than 100 characters in length, all lines are under 125 characters, and every piece of code can be parsed into an Abstract Syntax Tree (AST) for Python 3. In total, the dataset contains 2.6 million lines of code.
提供机构:
Fraser
原始信息汇总

数据集概述

数据集内容

  • 包含260万行Python代码,每行代码均小于125个字符,多数小于100个字符。
  • 每行代码格式为:{text: {python source code line}}。

数据集用途

  • 用于验证变分自编码器(Variational-Autoencoder)潜在空间的有效性,通过测试随机或中间潜在点能被贪婪解码为有效Python代码的百分比。

数据集特性

  • 所有代码均可解析为Python 3抽象语法树(AST)。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作