ArtifactAI/arxiv_deep_learning_python_research_code
收藏Hugging Face2023-07-27 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ArtifactAI/arxiv_deep_learning_python_research_code
下载链接
链接失效反馈官方服务:
资源简介:
ArtifactAI/arxiv_python_research_code数据集包含了从ArXiv论文中引用的源代码文件,主要用于代码语言模型的研究。数据集包含超过1.49GB的源代码文件,每个文件实例包含代码内容及其元数据,如仓库名、文件路径、文件长度等。数据集没有划分训练集和测试集,所有数据默认作为训练集加载。数据集的创建过程包括从ArXiv论文中提取GitHub仓库名,并过滤出包含特定关键词的代码文件。数据集可能包含敏感信息,如电子邮件、IP地址等。
ArtifactAI/arxiv_python_research_code数据集包含了从ArXiv论文中引用的源代码文件,主要用于代码语言模型的研究。数据集包含超过1.49GB的源代码文件,每个文件实例包含代码内容及其元数据,如仓库名、文件路径、文件长度等。数据集没有划分训练集和测试集,所有数据默认作为训练集加载。数据集的创建过程包括从ArXiv论文中提取GitHub仓库名,并过滤出包含特定关键词的代码文件。数据集可能包含敏感信息,如电子邮件、IP地址等。
提供机构:
ArtifactAI
原始信息汇总
数据集概述
数据集名称
- 名称: ArtifactAI/arxiv_deep_learning_python_research_code
数据集描述
- 内容: 包含超过1.49亿字节的源代码文件,这些文件严格引用自ArXiv论文。
- 用途: 作为Code LLMs的精选数据集。
数据集结构
数据实例
- 结构: 每个数据实例对应一个文件,文件内容存储在
code特征中,其他特征如repo,file等提供元数据信息。
数据字段
repo(字符串): 代码仓库名称。file(字符串): 仓库中的文件路径。code(字符串): 文件内的代码。file_length(整数): 文件中的字符数。avg_line_length(浮点数): 文件的平均行长度。max_line_length(整数): 文件的最大行长度。extension_type(字符串): 文件扩展名。
数据分割
- 分割: 数据集无明确分割,默认加载为训练集。
数据集大小
- 下载大小: 1490724325字节
- 数据集大小: 3590067176.125193字节
使用方法
- 加载数据集: 使用
datasets库加载数据集,可选择完整加载或流式加载。



