flytech/python-codes-25k
收藏Hugging Face2024-05-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/flytech/python-codes-25k
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含25,000个指令任务的清理过的Python数据集,涵盖了Python代码、任务和行为方面的内容。数据集包含四个关键字段:instruction(指令)、input(输入)、output(输出)和text(文本)。它适用于代码生成任务、专门用于编程语言的自然语言理解模型、基于给定任务和代码的行为分析以及教育目的。
This is a cleaned Python dataset containing 25,000 instructional tasks, covering content related to Python code, tasks and behaviors. The dataset includes four key fields: instruction, input, output and text. It is applicable to code generation tasks, natural language understanding models specialized for programming languages, behavior analysis based on given tasks and code, as well as educational purposes.
提供机构:
flytech
原始信息汇总
数据集概述
基本信息
- 任务类别: 文本分类、问答、令牌分类、摘要、文本到文本生成、文本生成
- 标签: 代码、Python、flytech、清洗、教学、数据集 25k、文本到代码、代码到文本、行为、代码生成、趋势、编程
- 大小类别: 1M<n<10M
- 许可证: MIT
数据集描述
- 名称: 清洗后的Python数据集,涵盖25,000个教学任务
- 关键特征: 指令、输入、输出、文本
- 用途: 丰富的Python代码和任务资源,扩展到行为分析
数据集统计
- 总条目: 24,813
- 唯一指令: 24,580
- 唯一输入: 3,666
- 唯一输出: 24,581
- 唯一文本: 24,813
- 平均令牌数/示例: 508
特征说明
instruction: 待执行的教学任务/用户输入input: AI响应的简短介绍部分或为空output: 完成任务的Python代码text: 所有字段组合
使用场景
- 代码生成任务
- 专注于编程语言的自然语言理解模型
- 基于给定任务和代码的行为分析
- 教育目的,理解编程风格和任务变化
访问与贡献
- 根据MIT许可证自由使用
- 欢迎对数据集进行增强或扩展的贡献



