five

SurgeGlobal/Orca

收藏
Hugging Face2024-04-20 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/SurgeGlobal/Orca
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集主要用于微调语言模型,以模仿大型语言模型的风格和推理过程,从而提高模型响应的安全性和质量。数据集包含5517个解释调优数据样本,生成方法基于h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2模型,并使用了FLAN-v2集合中的种子指令。数据集的结构包括查询、响应和系统消息(如适用)。
提供机构:
SurgeGlobal
原始信息汇总

数据集信息

特征

  • original_index: 类型为 int64
  • inputs: 类型为 string
  • targets: 类型为 string
  • task_source: 类型为 string
  • task_name: 类型为 string
  • template_type: 类型为 string
  • system_message: 类型为 string
  • explained_targets: 类型为 string
  • dataset_source: 类型为 string
  • falcon_status: 类型为 string
  • falcon_rating: 类型为 string
  • falcon_reason: 类型为 string
  • gpt4_status: 类型为 string
  • gpt4_rating: 类型为 string
  • gpt4_reason: 类型为 string

数据分割

  • train: 包含 5517 个样本,占用 10761181 字节

数据集大小

  • 下载大小: 5035931 字节
  • 数据集大小: 10761181 字节

配置

  • default: 包含训练数据文件,路径为 data/train-*

任务类别

  • text-generation

语言

  • en

数据集生成

  • 基础模型: h2oai/h2ogpt-gm-oasst1-en-2048-falcon-40b-v2
  • 种子指令: 源自 FLAN-v2 集合
  • 生成方法: 通过 h2ogpt-gm-oasst1-en-2048-falcon-40b-v2 生成详细解释
  • 总指令数: 5,507 个解释调优数据样本

数据集结构

数据集条目包括:

  • 查询
  • 响应
  • 系统消息(适用时)

使用目的

Orca 数据集旨在微调语言模型,以模仿大型语言模型的风格和推理过程,从而提高模型响应的安全性和质量。

引用

如果该数据集对您的工作有用,请按以下格式引用:

@misc{surge2024openbezoar, title={OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data}, author={Chandeepa Dissanayake and Lahiru Lowe and Sachith Gunasekara and Yasiru Ratnayake}, year={2024}, eprint={2404.12195}, archivePrefix={arXiv}, primaryClass={cs.CL} }

数据集作者

Chandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, 和 Yasiru Ratnayake

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Orca是一个由Surge Global发布的文本生成数据集,包含约5.5k条英语指令调优样本,基于FLAN-v2种子指令并通过h2ogpt-falcon-40b模型生成。该数据集采用解释调优方法,旨在训练模型模仿大型基础模型的推理过程,提升响应的安全性和质量,适用于多种任务如翻译、分类和问答。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作