MentalFox/GPTeacher
收藏Hugging Face2023-04-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MentalFox/GPTeacher
下载链接
链接失效反馈官方服务:
资源简介:
GPTeacher数据集是一个由GPT-4生成的模块化数据集集合,包含General-Instruct、Roleplay-Instruct、Code-Instruct和Toolformer四个子数据集。General-Instruct数据集使用了与alpaca相似的种子提示,但包含了alpaca中较少见的示例,如链式思维推理、逻辑谜题、文字游戏和角色扮演等,并要求在示例响应中包含推理和思维步骤。该数据集经过去重处理,包含约20,000个示例。Code-Instruct数据集仍在清理中。所有数据集都按照相似度评分分为5个独立的子集,并遵循Alpaca的数据集格式,每个示例包含指令、输入和输出字段。Toolformer部分的数据集文档即将发布,该数据集用于使用一组预定义工具,如搜索、Python、终端/Shell、Wikipedia、Wolfram等。
GPTeacher数据集是一个由GPT-4生成的模块化数据集集合,包含General-Instruct、Roleplay-Instruct、Code-Instruct和Toolformer四个子数据集。General-Instruct数据集使用了与alpaca相似的种子提示,但包含了alpaca中较少见的示例,如链式思维推理、逻辑谜题、文字游戏和角色扮演等,并要求在示例响应中包含推理和思维步骤。该数据集经过去重处理,包含约20,000个示例。Code-Instruct数据集仍在清理中。所有数据集都按照相似度评分分为5个独立的子集,并遵循Alpaca的数据集格式,每个示例包含指令、输入和输出字段。Toolformer部分的数据集文档即将发布,该数据集用于使用一组预定义工具,如搜索、Python、终端/Shell、Wikipedia、Wolfram等。
提供机构:
MentalFox
原始信息汇总
GPTeacher 数据集概述
数据集组成
GPTeacher 数据集由多个模块化子数据集构成,包括:
- General-Instruct
- Roleplay-Instruct
- Code-Instruct
- Toolformer
General-Instruct 数据集
- 规模: 约20,000个示例,仅包含去重处理。
- 内容特点: 包含链式思维推理、逻辑谜题、文字游戏、角色扮演等,强调在示例响应中包含推理和思考步骤。
数据集结构
所有子数据集均遵循Alpaca数据集格式,每个数据集包含以下字段:
- 指令 (Instruction)
- 输入 (Input)
- 输出 (Output)
数据集处理
每个子数据集被分为5个独立的集合,基于相似度得分进行清洗,包括简单的去重和相似度范围从<60%到<90%的清洗集合。
即将更新的内容
- Code-Instruct 数据集: 目前正在清理中,完成后将发布。
- Toolformer 数据集: 将提供详细的文档,该数据集用于使用预定义工具,包括搜索、Python、终端/Shell、Wikipedia、Wolfram等。



