ArtifactAI/arxiv_python_research_code
收藏Hugging Face2023-07-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ArtifactAI/arxiv_python_research_code
下载链接
链接失效反馈官方服务:
资源简介:
ArtifactAI/arxiv_python_research_code数据集包含了超过4.13GB的源代码文件,这些文件严格引用自ArXiv论文。该数据集主要用于代码语言模型(Code LLMs)的研究。每个数据实例对应一个文件,文件内容存储在code特征中,其他特征(如repo、file等)提供了一些元数据。数据集没有分割,所有数据默认加载为训练集。数据集的创建过程包括从ArXiv论文中提取GitHub仓库名称,并过滤提取出.py文件扩展名的代码。数据集的发布可能包含敏感信息,如电子邮件、IP地址和API/ssh密钥等。
提供机构:
ArtifactAI
原始信息汇总
数据集概述
数据集名称
- 名称:arxiv_python_research_code
- 别名:ArtifactAI/arxiv_python_research_code
数据集特征
repo(字符串): 代码仓库名称。file(字符串): 仓库中的文件路径。code(字符串): 文件中的代码内容。file_length(整数): 文件中的字符数。avg_line_length(浮点数): 文件中行的平均长度。max_line_length(整数): 文件中行的最大长度。extension_type(字符串): 文件扩展名。
数据集大小
- 下载大小:4073853616 字节
- 数据集大小:12984199778 字节
- 类别:1B<n<10B
数据集分割
- 训练集:
- 字节数:12984199778
- 示例数:1415924
许可证
- 许可证类型:bigcode-openrail-m
任务类别
- 文本生成
语言
- 英语 (en)
数据集创建
- 初始数据收集:从ArXiv论文中提取的34,099个活跃GitHub仓库名称。
- 数据过滤与提取:从这些仓库中提取.py文件扩展的代码,形成1.4百万个文件。
- 可能包含的敏感信息:电子邮件、IP地址、API/ssh密钥等。
数据集管理员
- 姓名:Matthew Kenney
- 联系邮箱:matt@artifactai.com
引用信息
@misc{arxiv_python_research_code, title={arxiv_python_research_code}, author={Matthew Kenney}, year={2023} }



