five

StudentLLM/Sampled_Orca_GPT4

收藏
Hugging Face2023-08-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/StudentLLM/Sampled_Orca_GPT4
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Open-Orca的GPT-4回答数据集的分层抽样版本,使用了scikit-learn库的train_test_split方法进行抽样。具体抽样设置包括split_size为0.05,shuffle为True,以及以Open-Orca数据集的id作为分层依据。数据集的语言为英语,规模在10K到100K之间,许可证为MIT。

This is a stratified sampled dataset from Open-Orcas GPT-4 answered dataset (1M-GPT4-Augmented.parquet). The sampling was done using the train_test_split method from the scikit-learn library, with a split size of 0.05, shuffling enabled, and stratification based on the id of the Open-Orca dataset. The dataset is in English, with a size between 10K and 100K, and is licensed under MIT.
提供机构:
StudentLLM
原始信息汇总

Stratify Sampled Dataset of Open-Orca 🐬

概述

该数据集是从Open-Orca的GPT-4回答数据集(1M-GPT4-Augmented.parquet)中进行分层抽样得到的。

抽样方法

使用scikit-learn库的train_test_split方法进行抽样,具体设置如下:

  • split_size: 0.05
  • shuffle: True
  • stratify: Open-Orca数据集的id

数据集信息

  • 语言: 英语
  • 大小类别: 10K<n<100K
  • 许可证: MIT
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作