five

ArtifactAI/arxiv_python_research_code_summaries

收藏
Hugging Face2024-05-08 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/ArtifactAI/arxiv_python_research_code_summaries
下载链接
链接失效反馈
官方服务:
资源简介:
ArtifactAI/arxiv_python_research_code_summaries数据集包含从ArXiv论文中提取的Python函数和类的摘要。该数据集为代码语言模型(Code LLMs)提供了一个精选的数据集。数据集的结构包括多个特征,如prompt、code、function_name等,并且所有数据默认加载为训练集。数据集的创建过程涉及从GitHub仓库中提取Python代码,并使用Google Gemma 7B模型生成摘要。

ArtifactAI/arxiv_python_research_code_summaries数据集包含从ArXiv论文中提取的Python函数和类的摘要。该数据集为代码语言模型(Code LLMs)提供了一个精选的数据集。数据集的结构包括多个特征,如prompt、code、function_name等,并且所有数据默认加载为训练集。数据集的创建过程涉及从GitHub仓库中提取Python代码,并使用Google Gemma 7B模型生成摘要。
提供机构:
ArtifactAI
原始信息汇总

数据集概述

数据集名称

  • 名称: ArtifactAI/arxiv_python_research_code_summaries

数据集特征

  • 特征列表:
    • prompt: 字符串类型
    • code: 字符串类型
    • function_name: 字符串类型
    • index: 整数类型
    • tok_prompt: 字符串类型
    • response: 字符串类型
    • clean_response: 字符串类型

数据集结构

  • 数据实例: 每个实例对应一个文件,文件内容存储在code特征中,其他特征提供元数据。
  • 数据字段:
    • prompt: 生成摘要使用的提示。
    • code: 待摘要的函数或类。
    • function_name: 函数或类的名称。
    • index: 文件编号。
    • tok_prompt: 用于生成摘要的格式化提示。
    • response: 模型生成的摘要响应。
    • clean_response: 模型生成的清理后的摘要响应。

数据集分割

  • 分割:
    • train: 包含778,279个示例,总大小为6,070,143,242字节。

数据集大小

  • 下载大小: 1,940,745,710字节
  • 数据集大小: 6,070,143,242字节

数据集使用

  • 加载数据集: python from datasets import load_dataset ds = load_dataset("ArtifactAI/arxiv_code_summary", split="train")

数据集创建

  • 源数据:
    • 初始数据收集: 从ArXiv论文中提取的34,099个活跃GitHub仓库名称,总计773G压缩后的GitHub仓库数据。
    • 数据处理: 过滤并提取Python代码,使用Google Gemma 7B生成每个函数和类的摘要。

敏感信息

  • 可能包含的敏感信息: 电子邮件、IP地址、API/ssh密钥等。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作