five

Isotonic/SlimOrca

收藏
Hugging Face2023-12-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Isotonic/SlimOrca
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Open-Orca/OpenOrca的去重版本,使用了MinHash去重技术,Jaccard阈值为0.80。原始数据集大小为4233923,去重后的数据集大小为3011418。

该数据集是Open-Orca/OpenOrca的去重版本,使用了MinHash去重技术,Jaccard阈值为0.80。原始数据集大小为4233923,去重后的数据集大小为3011418。
提供机构:
Isotonic
原始信息汇总

数据集概述

数据集基本信息

  • 许可证: MIT
  • 数据集大小:
    • 下载大小: 2268645581字节
    • 数据集大小: 4093251472.0000005字节

数据集特征

  • id: 字符串类型
  • system_prompt: 字符串类型
  • question: 字符串类型
  • response: 字符串类型
  • reward: 浮点数类型(float32)

数据集划分

  • 训练集:
    • 数据量: 3274600633.90245字节
    • 样本数: 2409134
  • 测试集:
    • 数据量: 409325419.048775字节
    • 样本数: 301142
  • 验证集:
    • 数据量: 409325419.048775字节
    • 样本数: 301142

任务类别

  • 文本生成
  • 文本到文本生成
  • 对话系统
  • 文本分类
  • 令牌分类
  • 表格问题回答
  • 零样本分类
  • 问答
  • 摘要
  • 特征提取

语言

  • 英语(en)

数据集规模

  • 1M<n<10M

相关论文

  • arXiv: 2301.13688
  • arXiv: 2306.02707
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作