five

gcw-ai/python_code_critic_21k

收藏
Hugging Face2024-04-09 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/gcw-ai/python_code_critic_21k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集旨在自动化生成和验证Python编程问题的回答。它包含的数据点包括Python问题(instruction)、生成的回答(answer)及其代码片段和解释、代码执行结果(execution_result)、评估总结(thought)、回答适当性判断(action)、以及必要时改进后的回答(revised_answer)和迭代索引(cycle_index)。数据集的创建过程涉及从现有数据集中提取问题,使用大型语言模型生成回答,并通过GPT-4模型进行评估和改进。数据集采用CC BY-NC 4.0许可证,禁止商业使用并要求注明来源。

该数据集旨在自动化生成和验证Python编程问题的回答。它包含的数据点包括Python问题(instruction)、生成的回答(answer)及其代码片段和解释、代码执行结果(execution_result)、评估总结(thought)、回答适当性判断(action)、以及必要时改进后的回答(revised_answer)和迭代索引(cycle_index)。数据集的创建过程涉及从现有数据集中提取问题,使用大型语言模型生成回答,并通过GPT-4模型进行评估和改进。数据集采用CC BY-NC 4.0许可证,禁止商业使用并要求注明来源。
提供机构:
gcw-ai
原始信息汇总

Python Code Critic Dataset

概述

该数据集旨在自动化生成和验证对Python编程问题的响应。每个数据点包含以下内容:

  • instruction: Python相关的问题或任务。
  • answer: 对问题的响应,包括由大型语言模型(LLM)生成的代码片段和解释。
  • execution_result: 当answer中的Python代码被执行时的输出结果。
  • thought: 基于answerexecution_result的评估摘要。
  • action: 判断answer是否适当的指示(通过或失败)。
  • revised_answer: 如果原始answer被标记为失败,则包含改进后的答案。
  • cycle_index: 问题反馈循环的迭代索引,最多3个循环用于改进revised_answer

数据集创建过程

  • instruction数据来源于iamtarun/python_code_instructions_18k_alpaca,排除了输入列为“不适用”的行。
  • answer列由大型语言模型(LLM)如GEMMA和GPT-4生成。
  • thoughtactionrevised_answer由gpt-4-turbo-preview模型生成,用于评估和迭代改进响应。

数据集信息

  • 特征:
    • instruction: 字符串
    • answer: 字符串
    • execution_result: 字符串
    • thought: 字符串
    • action: 字符串
    • revised_answer: 字符串
    • cycle_index: 整数
  • 分割:
    • train: 21478个样本,50055374字节
  • 下载大小: 21609873字节
  • 数据集大小: 50055374字节
  • 配置:
    • default: 训练数据路径为data/train-*
  • 许可证: CC BY-NC 4.0
  • 任务类别: 文本生成
  • 语言: 英语
  • 大小类别: 10K<n<100K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作