ArtifactAI/arxiv_deep_learning_python_research_code

Name: ArtifactAI/arxiv_deep_learning_python_research_code
Creator: ArtifactAI
Published: 2023-07-27 00:42:03
License: 暂无描述

Hugging Face2023-07-27 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/ArtifactAI/arxiv_deep_learning_python_research_code

下载链接

链接失效反馈

官方服务：

资源简介：

ArtifactAI/arxiv_python_research_code数据集包含了从ArXiv论文中引用的源代码文件，主要用于代码语言模型的研究。数据集包含超过1.49GB的源代码文件，每个文件实例包含代码内容及其元数据，如仓库名、文件路径、文件长度等。数据集没有划分训练集和测试集，所有数据默认作为训练集加载。数据集的创建过程包括从ArXiv论文中提取GitHub仓库名，并过滤出包含特定关键词的代码文件。数据集可能包含敏感信息，如电子邮件、IP地址等。

提供机构：

ArtifactAI

原始信息汇总

数据集概述

数据集名称

名称: ArtifactAI/arxiv_deep_learning_python_research_code

数据集描述

内容: 包含超过1.49亿字节的源代码文件，这些文件严格引用自ArXiv论文。
用途: 作为Code LLMs的精选数据集。

数据集结构

数据实例

结构: 每个数据实例对应一个文件，文件内容存储在code特征中，其他特征如repo, file等提供元数据信息。

数据字段

repo (字符串): 代码仓库名称。
file (字符串): 仓库中的文件路径。
code (字符串): 文件内的代码。
file_length (整数): 文件中的字符数。
avg_line_length (浮点数): 文件的平均行长度。
max_line_length (整数): 文件的最大行长度。
extension_type (字符串): 文件扩展名。

数据分割

分割: 数据集无明确分割，默认加载为训练集。

数据集大小

下载大小: 1490724325字节
数据集大小: 3590067176.125193字节

使用方法

加载数据集: 使用datasets库加载数据集，可选择完整加载或流式加载。

5,000+

优质数据集

54 个

任务类型

进入经典数据集