ArtifactAI/arxiv_python_research_code_summaries
收藏Hugging Face2024-05-08 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/ArtifactAI/arxiv_python_research_code_summaries
下载链接
链接失效反馈官方服务:
资源简介:
ArtifactAI/arxiv_python_research_code_summaries数据集包含从ArXiv论文中提取的Python函数和类的摘要。该数据集为代码语言模型(Code LLMs)提供了一个精选的数据集。数据集的结构包括多个特征,如prompt、code、function_name等,并且所有数据默认加载为训练集。数据集的创建过程涉及从GitHub仓库中提取Python代码,并使用Google Gemma 7B模型生成摘要。
ArtifactAI/arxiv_python_research_code_summaries数据集包含从ArXiv论文中提取的Python函数和类的摘要。该数据集为代码语言模型(Code LLMs)提供了一个精选的数据集。数据集的结构包括多个特征,如prompt、code、function_name等,并且所有数据默认加载为训练集。数据集的创建过程涉及从GitHub仓库中提取Python代码,并使用Google Gemma 7B模型生成摘要。
提供机构:
ArtifactAI
原始信息汇总
数据集概述
数据集名称
- 名称: ArtifactAI/arxiv_python_research_code_summaries
数据集特征
- 特征列表:
prompt: 字符串类型code: 字符串类型function_name: 字符串类型index: 整数类型tok_prompt: 字符串类型response: 字符串类型clean_response: 字符串类型
数据集结构
- 数据实例: 每个实例对应一个文件,文件内容存储在
code特征中,其他特征提供元数据。 - 数据字段:
prompt: 生成摘要使用的提示。code: 待摘要的函数或类。function_name: 函数或类的名称。index: 文件编号。tok_prompt: 用于生成摘要的格式化提示。response: 模型生成的摘要响应。clean_response: 模型生成的清理后的摘要响应。
数据集分割
- 分割:
train: 包含778,279个示例,总大小为6,070,143,242字节。
数据集大小
- 下载大小: 1,940,745,710字节
- 数据集大小: 6,070,143,242字节
数据集使用
- 加载数据集: python from datasets import load_dataset ds = load_dataset("ArtifactAI/arxiv_code_summary", split="train")
数据集创建
- 源数据:
- 初始数据收集: 从ArXiv论文中提取的34,099个活跃GitHub仓库名称,总计773G压缩后的GitHub仓库数据。
- 数据处理: 过滤并提取Python代码,使用Google Gemma 7B生成每个函数和类的摘要。
敏感信息
- 可能包含的敏感信息: 电子邮件、IP地址、API/ssh密钥等。



