ArtifactAI/arxiv_python_research_code

Name: ArtifactAI/arxiv_python_research_code
Creator: ArtifactAI
Published: 2023-07-26 01:53:15
License: 暂无描述

Hugging Face2023-07-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ArtifactAI/arxiv_python_research_code

下载链接

链接失效反馈

官方服务：

资源简介：

ArtifactAI/arxiv_python_research_code数据集包含了超过4.13GB的源代码文件，这些文件严格引用自ArXiv论文。该数据集主要用于代码语言模型（Code LLMs）的研究。每个数据实例对应一个文件，文件内容存储在code特征中，其他特征（如repo、file等）提供了一些元数据。数据集没有分割，所有数据默认加载为训练集。数据集的创建过程包括从ArXiv论文中提取GitHub仓库名称，并过滤提取出.py文件扩展名的代码。数据集的发布可能包含敏感信息，如电子邮件、IP地址和API/ssh密钥等。

提供机构：

ArtifactAI

原始信息汇总

数据集概述

数据集名称

名称：arxiv_python_research_code
别名：ArtifactAI/arxiv_python_research_code

数据集特征

repo (字符串): 代码仓库名称。
file (字符串): 仓库中的文件路径。
code (字符串): 文件中的代码内容。
file_length (整数): 文件中的字符数。
avg_line_length (浮点数): 文件中行的平均长度。
max_line_length (整数): 文件中行的最大长度。
extension_type (字符串): 文件扩展名。

数据集大小

下载大小：4073853616 字节
数据集大小：12984199778 字节
类别：1B<n<10B

数据集分割

训练集：
- 字节数：12984199778
- 示例数：1415924

许可证

许可证类型：bigcode-openrail-m

任务类别

文本生成

语言

英语 (en)

数据集创建

初始数据收集：从ArXiv论文中提取的34,099个活跃GitHub仓库名称。
数据过滤与提取：从这些仓库中提取.py文件扩展的代码，形成1.4百万个文件。
可能包含的敏感信息：电子邮件、IP地址、API/ssh密钥等。

数据集管理员

姓名：Matthew Kenney
联系邮箱：matt@artifactai.com

引用信息

@misc{arxiv_python_research_code, title={arxiv_python_research_code}, author={Matthew Kenney}, year={2023} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集