five

Nan-Do/reason_code-search-net-python|代码理解数据集|自然语言处理数据集

收藏
hugging_face2023-06-06 更新2024-03-04 收录
代码理解
自然语言处理
下载链接:
https://hf-mirror.com/datasets/Nan-Do/reason_code-search-net-python
下载链接
链接失效反馈
资源简介:
该数据集是一个用于Python的指令数据集,包含五种不同类型的任务。给定一个Python 3函数,任务类型包括:生成解释函数功能的摘要、生成解释输入参数含义的摘要、生成解释返回值含义的摘要、生成解释返回值类型的摘要、生成解释输入参数类型的摘要。数据集旨在提高大型语言模型对Python 3代码的理解和推理能力。数据集包含训练集,数据来源于code-search-net数据集的摘要版本,注释过程使用了模板、NLP技术和Python AST模块。数据集的语言为英语,许可证为Apache 2.0。
提供机构:
Nan-Do
原始信息汇总

数据集概述

数据集名称

  • 名称: Reasoning dataset for Python
  • 别名: reason_code-search-net-python

数据集特征

  • 特征名称: INSTRUCTION, RESPONSE, TYPE, SOURCE
  • 数据类型:
    • INSTRUCTION: string
    • RESPONSE: string
    • TYPE: int64
    • SOURCE: string

数据集任务

  • 任务类别: summarization, text-generation, conversational, text2text-generation
  • 语言: English

数据集内容

  • 描述: 该数据集用于Python的教学,包含五种不同类型的任务,涉及Python 3函数的解释和理解。
  • 任务类型:
    • Type 1: 生成函数功能的总结。
    • Type 2: 生成输入参数的解释。
    • Type 3: 生成返回值的解释。
    • Type 4: 生成返回值类型的解释。
    • Type 5: 生成输入参数类型的解释。

数据集分割

  • 分割: 仅包含训练集
  • 训练集大小: 429059个样本,总大小399930143字节

数据集创建

  • 创建时间: 2023年5月
  • 创建目的: 提高LLMs对Python 3的推理/理解能力

许可证

  • 许可证类型: Apache 2.0
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

WorldClim

WorldClim是一个全球气候数据集,提供了全球范围内的气候数据,包括温度、降水、生物气候变量等。数据集的分辨率从30秒到10分钟不等,适用于各种尺度的气候分析和建模。

www.worldclim.org 收录

全国兴趣点(POI)数据

  POI(Point of Interest),即兴趣点,一个POI可以是餐厅、超市、景点、酒店、车站、停车场等。兴趣点通常包含四方面信息,分别为名称、类别、坐标、分类。其中,分类一般有一级分类和二级分类,每个分类都有相应的行业的代码和名称一一对应。  POI包含的信息及其衍生信息主要包含三个部分:

CnOpenData 收录

AAAR-1.0

AAAR-1.0数据集包含四个主要任务:方程推理、实验设计、论文弱点和评审评论。方程推理任务包含1049个样本,每个样本有四个字段:前文、后文、选项和答案。实验设计任务包含100篇论文,每篇论文包含文本数据和图像数据。论文弱点任务包含993篇论文,每篇论文包含文本数据和图像数据。评审评论任务的数据存储在另一个GitHub仓库中。

huggingface 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录