ArtifactAI/arxiv_python_research_code_summaries

Name: ArtifactAI/arxiv_python_research_code_summaries
Creator: ArtifactAI
Published: 2024-05-08 17:40:48
License: 暂无描述

Hugging Face2024-05-08 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/ArtifactAI/arxiv_python_research_code_summaries

下载链接

链接失效反馈

官方服务：

资源简介：

ArtifactAI/arxiv_python_research_code_summaries数据集包含从ArXiv论文中提取的Python函数和类的摘要。该数据集为代码语言模型（Code LLMs）提供了一个精选的数据集。数据集的结构包括多个特征，如prompt、code、function_name等，并且所有数据默认加载为训练集。数据集的创建过程涉及从GitHub仓库中提取Python代码，并使用Google Gemma 7B模型生成摘要。

提供机构：

ArtifactAI

原始信息汇总

数据集概述

数据集名称

名称: ArtifactAI/arxiv_python_research_code_summaries

数据集特征

特征列表:
- prompt: 字符串类型
- code: 字符串类型
- function_name: 字符串类型
- index: 整数类型
- tok_prompt: 字符串类型
- response: 字符串类型
- clean_response: 字符串类型

数据集结构

数据实例: 每个实例对应一个文件，文件内容存储在code特征中，其他特征提供元数据。
数据字段:
- prompt: 生成摘要使用的提示。
- code: 待摘要的函数或类。
- function_name: 函数或类的名称。
- index: 文件编号。
- tok_prompt: 用于生成摘要的格式化提示。
- response: 模型生成的摘要响应。
- clean_response: 模型生成的清理后的摘要响应。

数据集分割

分割:
- train: 包含778,279个示例，总大小为6,070,143,242字节。

数据集大小

下载大小: 1,940,745,710字节
数据集大小: 6,070,143,242字节

数据集使用

加载数据集: python from datasets import load_dataset ds = load_dataset("ArtifactAI/arxiv_code_summary", split="train")

数据集创建

源数据:
- 初始数据收集: 从ArXiv论文中提取的34,099个活跃GitHub仓库名称，总计773G压缩后的GitHub仓库数据。
- 数据处理: 过滤并提取Python代码，使用Google Gemma 7B生成每个函数和类的摘要。

敏感信息

可能包含的敏感信息: 电子邮件、IP地址、API/ssh密钥等。

5,000+

优质数据集

54 个

任务类型

进入经典数据集