five

ArtifactAI/arxiv_python_research_code

收藏
Hugging Face2023-07-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ArtifactAI/arxiv_python_research_code
下载链接
链接失效反馈
官方服务:
资源简介:
ArtifactAI/arxiv_python_research_code数据集包含了超过4.13GB的源代码文件,这些文件严格引用自ArXiv论文。该数据集主要用于代码语言模型(Code LLMs)的研究。每个数据实例对应一个文件,文件内容存储在code特征中,其他特征(如repo、file等)提供了一些元数据。数据集没有分割,所有数据默认加载为训练集。数据集的创建过程包括从ArXiv论文中提取GitHub仓库名称,并过滤提取出.py文件扩展名的代码。数据集的发布可能包含敏感信息,如电子邮件、IP地址和API/ssh密钥等。
提供机构:
ArtifactAI
原始信息汇总

数据集概述

数据集名称

  • 名称:arxiv_python_research_code
  • 别名:ArtifactAI/arxiv_python_research_code

数据集特征

  • repo (字符串): 代码仓库名称。
  • file (字符串): 仓库中的文件路径。
  • code (字符串): 文件中的代码内容。
  • file_length (整数): 文件中的字符数。
  • avg_line_length (浮点数): 文件中行的平均长度。
  • max_line_length (整数): 文件中行的最大长度。
  • extension_type (字符串): 文件扩展名。

数据集大小

  • 下载大小:4073853616 字节
  • 数据集大小:12984199778 字节
  • 类别:1B<n<10B

数据集分割

  • 训练集:
    • 字节数:12984199778
    • 示例数:1415924

许可证

  • 许可证类型:bigcode-openrail-m

任务类别

  • 文本生成

语言

  • 英语 (en)

数据集创建

  • 初始数据收集:从ArXiv论文中提取的34,099个活跃GitHub仓库名称。
  • 数据过滤与提取:从这些仓库中提取.py文件扩展的代码,形成1.4百万个文件。
  • 可能包含的敏感信息:电子邮件、IP地址、API/ssh密钥等。

数据集管理员

  • 姓名:Matthew Kenney
  • 联系邮箱:matt@artifactai.com

引用信息

@misc{arxiv_python_research_code, title={arxiv_python_research_code}, author={Matthew Kenney}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作