five

kimnt93/OpenOrca-50k

收藏
Hugging Face2024-04-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kimnt93/OpenOrca-50k
下载链接
链接失效反馈
官方服务:
资源简介:
OpenOrca-50k是从HuggingFace上可用的原始Open-Orca数据集中精心挑选的一个子集,包含50,000个随机样本。该子集被提取出来以服务于特定的研究目的,特别是那些需要较小但具有代表性的原始数据集部分的研究。每个数据集条目包含以下结构:`id`(样本的唯一标识符)、`system_prompt`(系统生成的提示或交互上下文)、`question`(提出的主要问题,对应于给定的提示)和`response`(系统或模型对问题的回答)。
提供机构:
kimnt93
原始信息汇总

OpenOrca-50k 数据集

描述

OpenOrca-50k 是从 HuggingFace 上的原始 Open-Orca 数据集中精选出的一个子集,包含 50,000 个随机样本。该子集是为了满足特定研究需求而提取的,特别是那些需要原始数据集较小但具有代表性部分的场景。

每个数据条目具有以下结构:

  • id: 样本的唯一标识符。
  • system_prompt: 系统生成的交互提示或上下文。
  • question: 与给定提示对应的主要问题。
  • response: 系统或模型对问题的响应。

数据集信息

特征

  • id: 字符串类型
  • system_prompt: 字符串类型
  • question: 字符串类型
  • response: 字符串类型

分割

  • train: 包含 50,000 个样本,总字节数为 85,583,064 字节。

大小

  • 下载大小: 49,265,986 字节
  • 数据集大小: 85,583,064 字节

配置

  • default 配置包含 train 分割的数据文件路径为 data/train-*

使用

该数据集主要面向希望使用 Open-Orca 数据集较小版本的科研人员和机器学习实践者。它适用于快速原型设计或在计算资源有限的情况下使用。

使用 HuggingFace 的 datasets 库加载数据集的示例代码如下:

python from datasets import load_dataset

dataset = load_dataset("kimnt93/OpenOrca-50k")

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作