five

Nan-Do/reason_code-search-net-python|代码理解数据集|自然语言处理数据集

收藏
hugging_face2023-06-06 更新2024-03-04 收录
代码理解
自然语言处理
下载链接:
https://hf-mirror.com/datasets/Nan-Do/reason_code-search-net-python
下载链接
链接失效反馈
资源简介:
该数据集是一个用于Python的指令数据集,包含五种不同类型的任务。给定一个Python 3函数,任务类型包括:生成解释函数功能的摘要、生成解释输入参数含义的摘要、生成解释返回值含义的摘要、生成解释返回值类型的摘要、生成解释输入参数类型的摘要。数据集旨在提高大型语言模型对Python 3代码的理解和推理能力。数据集包含训练集,数据来源于code-search-net数据集的摘要版本,注释过程使用了模板、NLP技术和Python AST模块。数据集的语言为英语,许可证为Apache 2.0。
提供机构:
Nan-Do
原始信息汇总

数据集概述

数据集名称

  • 名称: Reasoning dataset for Python
  • 别名: reason_code-search-net-python

数据集特征

  • 特征名称: INSTRUCTION, RESPONSE, TYPE, SOURCE
  • 数据类型:
    • INSTRUCTION: string
    • RESPONSE: string
    • TYPE: int64
    • SOURCE: string

数据集任务

  • 任务类别: summarization, text-generation, conversational, text2text-generation
  • 语言: English

数据集内容

  • 描述: 该数据集用于Python的教学,包含五种不同类型的任务,涉及Python 3函数的解释和理解。
  • 任务类型:
    • Type 1: 生成函数功能的总结。
    • Type 2: 生成输入参数的解释。
    • Type 3: 生成返回值的解释。
    • Type 4: 生成返回值类型的解释。
    • Type 5: 生成输入参数类型的解释。

数据集分割

  • 分割: 仅包含训练集
  • 训练集大小: 429059个样本,总大小399930143字节

数据集创建

  • 创建时间: 2023年5月
  • 创建目的: 提高LLMs对Python 3的推理/理解能力

许可证

  • 许可证类型: Apache 2.0
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作