StudentLLM/Sampled_Orca_GPT4
收藏Hugging Face2023-08-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/StudentLLM/Sampled_Orca_GPT4
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Open-Orca的GPT-4回答数据集的分层抽样版本,使用了scikit-learn库的train_test_split方法进行抽样。具体抽样设置包括split_size为0.05,shuffle为True,以及以Open-Orca数据集的id作为分层依据。数据集的语言为英语,规模在10K到100K之间,许可证为MIT。
This is a stratified sampled dataset from Open-Orcas GPT-4 answered dataset (1M-GPT4-Augmented.parquet). The sampling was done using the train_test_split method from the scikit-learn library, with a split size of 0.05, shuffling enabled, and stratification based on the id of the Open-Orca dataset. The dataset is in English, with a size between 10K and 100K, and is licensed under MIT.
提供机构:
StudentLLM
原始信息汇总
Stratify Sampled Dataset of Open-Orca 🐬
概述
该数据集是从Open-Orca的GPT-4回答数据集(1M-GPT4-Augmented.parquet)中进行分层抽样得到的。
抽样方法
使用scikit-learn库的train_test_split方法进行抽样,具体设置如下:
split_size: 0.05shuffle: Truestratify: Open-Orca数据集的id
数据集信息
- 语言: 英语
- 大小类别: 10K<n<100K
- 许可证: MIT



