kimnt93/OpenOrca-50k

Name: kimnt93/OpenOrca-50k
Creator: kimnt93
Published: 2024-04-20 08:55:17
License: 暂无描述

Hugging Face2024-04-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/kimnt93/OpenOrca-50k

下载链接

链接失效反馈

官方服务：

资源简介：

OpenOrca-50k是从HuggingFace上可用的原始Open-Orca数据集中精心挑选的一个子集，包含50,000个随机样本。该子集被提取出来以服务于特定的研究目的，特别是那些需要较小但具有代表性的原始数据集部分的研究。每个数据集条目包含以下结构：`id`（样本的唯一标识符）、`system_prompt`（系统生成的提示或交互上下文）、`question`（提出的主要问题，对应于给定的提示）和`response`（系统或模型对问题的回答）。

提供机构：

kimnt93

原始信息汇总

OpenOrca-50k 数据集

描述

OpenOrca-50k 是从 HuggingFace 上的原始 Open-Orca 数据集中精选出的一个子集，包含 50,000 个随机样本。该子集是为了满足特定研究需求而提取的，特别是那些需要原始数据集较小但具有代表性部分的场景。

每个数据条目具有以下结构：

id: 样本的唯一标识符。
system_prompt: 系统生成的交互提示或上下文。
question: 与给定提示对应的主要问题。
response: 系统或模型对问题的响应。

数据集信息

特征

id: 字符串类型
system_prompt: 字符串类型
question: 字符串类型
response: 字符串类型

分割

train: 包含 50,000 个样本，总字节数为 85,583,064 字节。

大小

下载大小: 49,265,986 字节
数据集大小: 85,583,064 字节

配置

default 配置包含 train 分割的数据文件路径为 data/train-*。

使用

该数据集主要面向希望使用 Open-Orca 数据集较小版本的科研人员和机器学习实践者。它适用于快速原型设计或在计算资源有限的情况下使用。

使用 HuggingFace 的 datasets 库加载数据集的示例代码如下：

python from datasets import load_dataset

dataset = load_dataset("kimnt93/OpenOrca-50k")

5,000+

优质数据集

54 个

任务类型

进入经典数据集