five

ArtifactAI/arxiv_deep_learning_python_research_code_functions_summaries

收藏
Hugging Face2024-05-08 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ArtifactAI/arxiv_deep_learning_python_research_code_functions_summaries
下载链接
链接失效反馈
官方服务:
资源简介:
ArtifactAI/arxiv_deep_learning_python_research_code_functions_summaries数据集包含从ArXiv论文中引用的Python源代码文件中提取的每个函数和类的摘要。该数据集为代码大语言模型(Code LLMs)提供了一个精选的数据集。数据集的结构包括多个字段,如prompt、function、function_name等,用于描述每个函数或类的相关信息。数据集的创建过程涉及从ArXiv论文中提取GitHub仓库名称,并过滤出深度学习相关的Python代码,然后使用Google Gemma 7B生成每个函数和类的摘要。数据集没有分割,所有数据默认加载为训练集。

The ArtifactAI/arxiv_deep_learning_python_research_code_functions_summaries dataset contains summaries for every function and class extracted from Python source code files cited in ArXiv papers. This curated dataset serves as a valuable resource for code large language models (Code LLMs). The dataset structure includes multiple fields such as prompt, function, function_name, etc., to describe relevant information for each function or class. The dataset creation process involves extracting GitHub repository names from ArXiv papers, filtering Python code related to deep learning, and then generating summaries for each function and class using Google Gemma 7B. The dataset has no predefined data splits, and all data is loaded as the training set by default.
提供机构:
ArtifactAI
原始信息汇总

数据集概述

数据集描述

数据集摘要

ArtifactAI/arxiv_deep_learning_python_research_code_functions_summaries 包含从ArXiv论文引用的源代码文件中提取的每个Python函数和类的摘要。该数据集是为代码大型语言模型(Code LLMs)精心策划的。

数据结构

数据实例

每个数据实例对应一个函数。

数据字段

  • prompt (字符串): 用于生成摘要的提示。
  • function (字符串): 要总结的函数或类。
  • function_name (字符串): 函数或类的名称。
  • file_number (整数): 文件编号。
  • tok_prompt (字符串): 用于生成摘要的格式化提示。
  • function_summary (字符串): 模型生成的摘要响应。
  • function_summary_clean (字符串): 模型生成的清理后的摘要响应。
  • repo (字符串): 从中提取函数的仓库。
  • file (字符串): 文件名。
  • full_code (字符串): 函数所在的文件中的代码。
  • file_length (整数): full_code的字符长度。
  • avg_line_length (浮点数): full_code的平均行长度。
  • max_line_length (整数): full_code的最大行长度。
  • extension_type (字符串): 文件扩展名(例如.py)。

数据分割

数据集没有分割,所有数据默认加载为训练分割。

数据集创建

初始数据收集和规范化

从ArXiv论文中提取了34,099个活跃的GitHub仓库名称,这些仓库从ArXiv成立到2023年7月21日,总计42GB的压缩GitHub仓库。

这些仓库随后被过滤为深度学习Python代码,提取了函数和类。使用Google Gemma 7B生成每个函数和类的摘要。

源语言生产者

源(代码)语言生产者是创建了独特仓库的GitHub用户。

个人和敏感信息

发布的数集可能包含敏感信息,如电子邮件、IP地址和API/SSH密钥,这些信息之前已发布到GitHub上的公共仓库。

数据集策展人

Matthew Kenney, Artifact AI, matt@artifactai.com

引用信息

@misc{arxiv_deep_learning_python_research_code_functions_summaries, title={arxiv_deep_learning_python_research_code_functions_summaries}, author={Matthew Kenney}, year={2024} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作