five

Open-Orca/SlimOrca-Dedup

收藏
Hugging Face2025-05-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Open-Orca/SlimOrca-Dedup
下载链接
链接失效反馈
官方服务:
资源简介:
SlimOrca Dedup是一个去重且未经过滤的SlimOrca数据集子集,去除了RLHF实例,包含了363k个独立示例。该数据集适用于文本分类、问答和文本生成等任务,并涵盖了代码、艺术、音乐、法律、金融、生物学和化学等多个标签。数据集采用sharegpt的基本格式,并定义了消息发送者(系统、人类、GPT)和消息角色。

SlimOrca Dedup is a deduplicated and unfiltered subset of the SlimOrca dataset, excluding RLHF instances, containing 363k unique examples. It is suitable for tasks such as text classification, question answering, and text generation, covering tags including code, art, music, legal, finance, biology, and chemistry. The dataset uses the basic sharegpt format and defines message senders (system, human, GPT) and message roles.
提供机构:
Open-Orca
原始信息汇总

数据集概述

数据集名称

  • SlimOrca Dedup

数据集描述

  • SlimOrca Dedup 是一个去重、未过滤的SlimOrca数据集子集,排除了RLHF实例,包含363k个独特示例。

关键特性

  • 移除了RLHF实例。
  • 使用minhash和Jaccard相似性技术进行去重。

数据集格式

  • 基本结构:使用基本的sharegpt格式。
  • 消息格式
    • "from":字符串,指示消息发送者,可能的值为"system", "human", "gpt"。
    • "value":字符串,包含发送者的消息或指令。
  • 消息角色
    • System:系统向大型语言模型提供任务的指令或指南。
    • Human:人类向AI模型提供提示或查询。
    • GPT:语言模型,根据人类的提示或查询生成响应或内容。

许可证

  • MIT

任务类别

  • 文本分类
  • 问答
  • 文本生成

标签

  • 代码
  • 艺术
  • 音乐
  • 法律
  • 财务
  • 生物学
  • 化学

大小类别

  • 100K<n<1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作