SurgeGlobal/Orca

Name: SurgeGlobal/Orca
Creator: SurgeGlobal
Published: 2024-04-20 11:35:01
License: 暂无描述

Hugging Face2024-04-20 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/SurgeGlobal/Orca

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要用于微调语言模型，以模仿大型语言模型的风格和推理过程，从而提高模型响应的安全性和质量。数据集包含5517个解释调优数据样本，生成方法基于h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2模型，并使用了FLAN-v2集合中的种子指令。数据集的结构包括查询、响应和系统消息（如适用）。

提供机构：

SurgeGlobal

原始信息汇总

数据集信息

特征

original_index: 类型为 int64
inputs: 类型为 string
targets: 类型为 string
task_source: 类型为 string
task_name: 类型为 string
template_type: 类型为 string
system_message: 类型为 string
explained_targets: 类型为 string
dataset_source: 类型为 string
falcon_status: 类型为 string
falcon_rating: 类型为 string
falcon_reason: 类型为 string
gpt4_status: 类型为 string
gpt4_rating: 类型为 string
gpt4_reason: 类型为 string

数据分割

train: 包含 5517 个样本，占用 10761181 字节

数据集大小

下载大小: 5035931 字节
数据集大小: 10761181 字节

配置

default: 包含训练数据文件，路径为 data/train-*

任务类别

text-generation

语言

数据集生成

基础模型: h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2
种子指令: 源自 FLAN-v2 集合
生成方法: 通过 h2ogpt-gm-oasst1-en-2048-falcon-40b-v2 生成详细解释
总指令数: 5,507 个解释调优数据样本

数据集结构

数据集条目包括：

查询
响应
系统消息（适用时）

使用目的

Orca 数据集旨在微调语言模型，以模仿大型语言模型的风格和推理过程，从而提高模型响应的安全性和质量。

引用

如果该数据集对您的工作有用，请按以下格式引用：

@misc{surge2024openbezoar, title={OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data}, author={Chandeepa Dissanayake and Lahiru Lowe and Sachith Gunasekara and Yasiru Ratnayake}, year={2024}, eprint={2404.12195}, archivePrefix={arXiv}, primaryClass={cs.CL} }

数据集作者

Chandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, 和 Yasiru Ratnayake

搜集汇总

数据集介绍

背景与挑战

背景概述

Orca是一个由Surge Global发布的文本生成数据集，包含约5.5k条英语指令调优样本，基于FLAN-v2种子指令并通过h2ogpt-falcon-40b模型生成。该数据集采用解释调优方法，旨在训练模型模仿大型基础模型的推理过程，提升响应的安全性和质量，适用于多种任务如翻译、分类和问答。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集