kimnt93/OpenOrca-50k
收藏Hugging Face2024-04-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kimnt93/OpenOrca-50k
下载链接
链接失效反馈官方服务:
资源简介:
OpenOrca-50k是从HuggingFace上可用的原始Open-Orca数据集中精心挑选的一个子集,包含50,000个随机样本。该子集被提取出来以服务于特定的研究目的,特别是那些需要较小但具有代表性的原始数据集部分的研究。每个数据集条目包含以下结构:`id`(样本的唯一标识符)、`system_prompt`(系统生成的提示或交互上下文)、`question`(提出的主要问题,对应于给定的提示)和`response`(系统或模型对问题的回答)。
提供机构:
kimnt93
原始信息汇总
OpenOrca-50k 数据集
描述
OpenOrca-50k 是从 HuggingFace 上的原始 Open-Orca 数据集中精选出的一个子集,包含 50,000 个随机样本。该子集是为了满足特定研究需求而提取的,特别是那些需要原始数据集较小但具有代表性部分的场景。
每个数据条目具有以下结构:
id: 样本的唯一标识符。system_prompt: 系统生成的交互提示或上下文。question: 与给定提示对应的主要问题。response: 系统或模型对问题的响应。
数据集信息
特征
id: 字符串类型system_prompt: 字符串类型question: 字符串类型response: 字符串类型
分割
train: 包含 50,000 个样本,总字节数为 85,583,064 字节。
大小
- 下载大小: 49,265,986 字节
- 数据集大小: 85,583,064 字节
配置
default配置包含train分割的数据文件路径为data/train-*。
使用
该数据集主要面向希望使用 Open-Orca 数据集较小版本的科研人员和机器学习实践者。它适用于快速原型设计或在计算资源有限的情况下使用。
使用 HuggingFace 的 datasets 库加载数据集的示例代码如下:
python from datasets import load_dataset
dataset = load_dataset("kimnt93/OpenOrca-50k")



