Nan-Do/reason_code-search-net-python|代码理解数据集|自然语言处理数据集
收藏hugging_face2023-06-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nan-Do/reason_code-search-net-python
下载链接
链接失效反馈资源简介:
该数据集是一个用于Python的指令数据集,包含五种不同类型的任务。给定一个Python 3函数,任务类型包括:生成解释函数功能的摘要、生成解释输入参数含义的摘要、生成解释返回值含义的摘要、生成解释返回值类型的摘要、生成解释输入参数类型的摘要。数据集旨在提高大型语言模型对Python 3代码的理解和推理能力。数据集包含训练集,数据来源于code-search-net数据集的摘要版本,注释过程使用了模板、NLP技术和Python AST模块。数据集的语言为英语,许可证为Apache 2.0。
提供机构:
Nan-Do
原始信息汇总
数据集概述
数据集名称
- 名称: Reasoning dataset for Python
- 别名: reason_code-search-net-python
数据集特征
- 特征名称: INSTRUCTION, RESPONSE, TYPE, SOURCE
- 数据类型:
- INSTRUCTION: string
- RESPONSE: string
- TYPE: int64
- SOURCE: string
数据集任务
- 任务类别: summarization, text-generation, conversational, text2text-generation
- 语言: English
数据集内容
- 描述: 该数据集用于Python的教学,包含五种不同类型的任务,涉及Python 3函数的解释和理解。
- 任务类型:
- Type 1: 生成函数功能的总结。
- Type 2: 生成输入参数的解释。
- Type 3: 生成返回值的解释。
- Type 4: 生成返回值类型的解释。
- Type 5: 生成输入参数类型的解释。
数据集分割
- 分割: 仅包含训练集
- 训练集大小: 429059个样本,总大小399930143字节
数据集创建
- 创建时间: 2023年5月
- 创建目的: 提高LLMs对Python 3的推理/理解能力
许可证
- 许可证类型: Apache 2.0



