SurgeGlobal/Orca
收藏Hugging Face2024-04-20 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/SurgeGlobal/Orca
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于微调语言模型,以模仿大型语言模型的风格和推理过程,从而提高模型响应的安全性和质量。数据集包含5517个解释调优数据样本,生成方法基于h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2模型,并使用了FLAN-v2集合中的种子指令。数据集的结构包括查询、响应和系统消息(如适用)。
提供机构:
SurgeGlobal
原始信息汇总
数据集信息
特征
- original_index: 类型为
int64 - inputs: 类型为
string - targets: 类型为
string - task_source: 类型为
string - task_name: 类型为
string - template_type: 类型为
string - system_message: 类型为
string - explained_targets: 类型为
string - dataset_source: 类型为
string - falcon_status: 类型为
string - falcon_rating: 类型为
string - falcon_reason: 类型为
string - gpt4_status: 类型为
string - gpt4_rating: 类型为
string - gpt4_reason: 类型为
string
数据分割
- train: 包含 5517 个样本,占用 10761181 字节
数据集大小
- 下载大小: 5035931 字节
- 数据集大小: 10761181 字节
配置
- default: 包含训练数据文件,路径为
data/train-*
任务类别
- text-generation
语言
- en
数据集生成
- 基础模型: h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2
- 种子指令: 源自 FLAN-v2 集合
- 生成方法: 通过 h2ogpt-gm-oasst1-en-2048-falcon-40b-v2 生成详细解释
- 总指令数: 5,507 个解释调优数据样本
数据集结构
数据集条目包括:
- 查询
- 响应
- 系统消息(适用时)
使用目的
Orca 数据集旨在微调语言模型,以模仿大型语言模型的风格和推理过程,从而提高模型响应的安全性和质量。
引用
如果该数据集对您的工作有用,请按以下格式引用:
@misc{surge2024openbezoar, title={OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data}, author={Chandeepa Dissanayake and Lahiru Lowe and Sachith Gunasekara and Yasiru Ratnayake}, year={2024}, eprint={2404.12195}, archivePrefix={arXiv}, primaryClass={cs.CL} }
数据集作者
Chandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, 和 Yasiru Ratnayake
搜集汇总
数据集介绍

背景与挑战
背景概述
Orca是一个由Surge Global发布的文本生成数据集,包含约5.5k条英语指令调优样本,基于FLAN-v2种子指令并通过h2ogpt-falcon-40b模型生成。该数据集采用解释调优方法,旨在训练模型模仿大型基础模型的推理过程,提升响应的安全性和质量,适用于多种任务如翻译、分类和问答。
以上内容由遇见数据集搜集并总结生成



