Isotonic/SlimOrca
收藏Hugging Face2023-12-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Isotonic/SlimOrca
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Open-Orca/OpenOrca的去重版本,使用了MinHash去重技术,Jaccard阈值为0.80。原始数据集大小为4233923,去重后的数据集大小为3011418。
该数据集是Open-Orca/OpenOrca的去重版本,使用了MinHash去重技术,Jaccard阈值为0.80。原始数据集大小为4233923,去重后的数据集大小为3011418。
提供机构:
Isotonic
原始信息汇总
数据集概述
数据集基本信息
- 许可证: MIT
- 数据集大小:
- 下载大小: 2268645581字节
- 数据集大小: 4093251472.0000005字节
数据集特征
- id: 字符串类型
- system_prompt: 字符串类型
- question: 字符串类型
- response: 字符串类型
- reward: 浮点数类型(float32)
数据集划分
- 训练集:
- 数据量: 3274600633.90245字节
- 样本数: 2409134
- 测试集:
- 数据量: 409325419.048775字节
- 样本数: 301142
- 验证集:
- 数据量: 409325419.048775字节
- 样本数: 301142
任务类别
- 文本生成
- 文本到文本生成
- 对话系统
- 文本分类
- 令牌分类
- 表格问题回答
- 零样本分类
- 问答
- 摘要
- 特征提取
语言
- 英语(en)
数据集规模
- 1M<n<10M
相关论文
- arXiv: 2301.13688
- arXiv: 2306.02707



