gcw-ai/python_code_critic_21k

Name: gcw-ai/python_code_critic_21k
Creator: gcw-ai
Published: 2024-04-09 04:41:06
License: 暂无描述

Hugging Face2024-04-09 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/gcw-ai/python_code_critic_21k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在自动化生成和验证Python编程问题的回答。它包含的数据点包括Python问题（instruction）、生成的回答（answer）及其代码片段和解释、代码执行结果（execution_result）、评估总结（thought）、回答适当性判断（action）、以及必要时改进后的回答（revised_answer）和迭代索引（cycle_index）。数据集的创建过程涉及从现有数据集中提取问题，使用大型语言模型生成回答，并通过GPT-4模型进行评估和改进。数据集采用CC BY-NC 4.0许可证，禁止商业使用并要求注明来源。

提供机构：

gcw-ai

原始信息汇总

Python Code Critic Dataset

概述

该数据集旨在自动化生成和验证对Python编程问题的响应。每个数据点包含以下内容：

instruction: Python相关的问题或任务。
answer: 对问题的响应，包括由大型语言模型（LLM）生成的代码片段和解释。
execution_result: 当answer中的Python代码被执行时的输出结果。
thought: 基于answer和execution_result的评估摘要。
action: 判断answer是否适当的指示（通过或失败）。
revised_answer: 如果原始answer被标记为失败，则包含改进后的答案。
cycle_index: 问题反馈循环的迭代索引，最多3个循环用于改进revised_answer。

数据集创建过程

instruction数据来源于iamtarun/python_code_instructions_18k_alpaca，排除了输入列为“不适用”的行。
answer列由大型语言模型（LLM）如GEMMA和GPT-4生成。
thought、action和revised_answer由gpt-4-turbo-preview模型生成，用于评估和迭代改进响应。

数据集信息

特征:
- instruction: 字符串
- answer: 字符串
- execution_result: 字符串
- thought: 字符串
- action: 字符串
- revised_answer: 字符串
- cycle_index: 整数
分割:
- train: 21478个样本，50055374字节
下载大小: 21609873字节
数据集大小: 50055374字节
配置:
- default: 训练数据路径为data/train-*
许可证: CC BY-NC 4.0
任务类别: 文本生成
语言: 英语
大小类别: 10K<n<100K

5,000+

优质数据集

54 个

任务类型

进入经典数据集