Fraser/python-lines
收藏Hugging Face2021-02-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Fraser/python-lines
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从CodeSearchNet数据集中提取的单行Python代码。数据集用于测试变分自编码器潜在空间的有效性,通过测试随机/中间潜在点中有多少可以贪婪地解码为有效的Python代码。每行数据包含一行可解析的Python源代码,大多数代码行少于100个字符,所有代码行都少于125个字符,并且所有代码都可以解析为Python3的抽象语法树(AST)。数据集共包含260万行代码。
This dataset comprises single-line Python code extracted from the CodeSearchNet dataset. It is designed to evaluate the validity of the latent space of Variational Autoencoders (VAE), by assessing how many random or intermediate latent points can be greedily decoded into valid Python code. Each entry in the dataset contains one line of parsable Python source code: the majority of these lines are fewer than 100 characters in length, all lines are under 125 characters, and every piece of code can be parsed into an Abstract Syntax Tree (AST) for Python 3. In total, the dataset contains 2.6 million lines of code.
提供机构:
Fraser
原始信息汇总
数据集概述
数据集内容
- 包含260万行Python代码,每行代码均小于125个字符,多数小于100个字符。
- 每行代码格式为:{text: {python source code line}}。
数据集用途
- 用于验证变分自编码器(Variational-Autoencoder)潜在空间的有效性,通过测试随机或中间潜在点能被贪婪解码为有效Python代码的百分比。
数据集特性
- 所有代码均可解析为Python 3抽象语法树(AST)。



