five

ArtifactAI/arxiv_deep_learning_python_research_code

收藏
Hugging Face2023-07-27 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ArtifactAI/arxiv_deep_learning_python_research_code
下载链接
链接失效反馈
官方服务:
资源简介:
ArtifactAI/arxiv_python_research_code数据集包含了从ArXiv论文中引用的源代码文件,主要用于代码语言模型的研究。数据集包含超过1.49GB的源代码文件,每个文件实例包含代码内容及其元数据,如仓库名、文件路径、文件长度等。数据集没有划分训练集和测试集,所有数据默认作为训练集加载。数据集的创建过程包括从ArXiv论文中提取GitHub仓库名,并过滤出包含特定关键词的代码文件。数据集可能包含敏感信息,如电子邮件、IP地址等。

ArtifactAI/arxiv_python_research_code数据集包含了从ArXiv论文中引用的源代码文件,主要用于代码语言模型的研究。数据集包含超过1.49GB的源代码文件,每个文件实例包含代码内容及其元数据,如仓库名、文件路径、文件长度等。数据集没有划分训练集和测试集,所有数据默认作为训练集加载。数据集的创建过程包括从ArXiv论文中提取GitHub仓库名,并过滤出包含特定关键词的代码文件。数据集可能包含敏感信息,如电子邮件、IP地址等。
提供机构:
ArtifactAI
原始信息汇总

数据集概述

数据集名称

  • 名称: ArtifactAI/arxiv_deep_learning_python_research_code

数据集描述

  • 内容: 包含超过1.49亿字节的源代码文件,这些文件严格引用自ArXiv论文。
  • 用途: 作为Code LLMs的精选数据集。

数据集结构

数据实例

  • 结构: 每个数据实例对应一个文件,文件内容存储在code特征中,其他特征如repo, file等提供元数据信息。

数据字段

  • repo (字符串): 代码仓库名称。
  • file (字符串): 仓库中的文件路径。
  • code (字符串): 文件内的代码。
  • file_length (整数): 文件中的字符数。
  • avg_line_length (浮点数): 文件的平均行长度。
  • max_line_length (整数): 文件的最大行长度。
  • extension_type (字符串): 文件扩展名。

数据分割

  • 分割: 数据集无明确分割,默认加载为训练集。

数据集大小

  • 下载大小: 1490724325字节
  • 数据集大小: 3590067176.125193字节

使用方法

  • 加载数据集: 使用datasets库加载数据集,可选择完整加载或流式加载。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作