five

MentalFox/GPTeacher

收藏
Hugging Face2023-04-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MentalFox/GPTeacher
下载链接
链接失效反馈
官方服务:
资源简介:
GPTeacher数据集是一个由GPT-4生成的模块化数据集集合,包含General-Instruct、Roleplay-Instruct、Code-Instruct和Toolformer四个子数据集。General-Instruct数据集使用了与alpaca相似的种子提示,但包含了alpaca中较少见的示例,如链式思维推理、逻辑谜题、文字游戏和角色扮演等,并要求在示例响应中包含推理和思维步骤。该数据集经过去重处理,包含约20,000个示例。Code-Instruct数据集仍在清理中。所有数据集都按照相似度评分分为5个独立的子集,并遵循Alpaca的数据集格式,每个示例包含指令、输入和输出字段。Toolformer部分的数据集文档即将发布,该数据集用于使用一组预定义工具,如搜索、Python、终端/Shell、Wikipedia、Wolfram等。

GPTeacher数据集是一个由GPT-4生成的模块化数据集集合,包含General-Instruct、Roleplay-Instruct、Code-Instruct和Toolformer四个子数据集。General-Instruct数据集使用了与alpaca相似的种子提示,但包含了alpaca中较少见的示例,如链式思维推理、逻辑谜题、文字游戏和角色扮演等,并要求在示例响应中包含推理和思维步骤。该数据集经过去重处理,包含约20,000个示例。Code-Instruct数据集仍在清理中。所有数据集都按照相似度评分分为5个独立的子集,并遵循Alpaca的数据集格式,每个示例包含指令、输入和输出字段。Toolformer部分的数据集文档即将发布,该数据集用于使用一组预定义工具,如搜索、Python、终端/Shell、Wikipedia、Wolfram等。
提供机构:
MentalFox
原始信息汇总

GPTeacher 数据集概述

数据集组成

GPTeacher 数据集由多个模块化子数据集构成,包括:

  • General-Instruct
  • Roleplay-Instruct
  • Code-Instruct
  • Toolformer

General-Instruct 数据集

  • 规模: 约20,000个示例,仅包含去重处理。
  • 内容特点: 包含链式思维推理、逻辑谜题、文字游戏、角色扮演等,强调在示例响应中包含推理和思考步骤。

数据集结构

所有子数据集均遵循Alpaca数据集格式,每个数据集包含以下字段:

  • 指令 (Instruction)
  • 输入 (Input)
  • 输出 (Output)

数据集处理

每个子数据集被分为5个独立的集合,基于相似度得分进行清洗,包括简单的去重和相似度范围从<60%到<90%的清洗集合。

即将更新的内容

  • Code-Instruct 数据集: 目前正在清理中,完成后将发布。
  • Toolformer 数据集: 将提供详细的文档,该数据集用于使用预定义工具,包括搜索、Python、终端/Shell、Wikipedia、Wolfram等。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作