five

philschmid/slimorca-dedup-chatml-100k

收藏
Hugging Face2024-02-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/philschmid/slimorca-dedup-chatml-100k
下载链接
链接失效反馈
官方服务:
资源简介:
SlimOrca Dedup是一个去重且未经过滤的SlimOrca数据集子集,排除了RLHF实例,包含363k个独特示例。该数据集的关键特性包括移除RLHF实例和使用minhash和Jaccard相似性技术进行去重。数据集采用基本的sharegpt格式,包含系统、人类和GPT三种消息角色,分别用于提供指令、提出查询和生成响应。

SlimOrca Dedup是一个去重且未经过滤的SlimOrca数据集子集,排除了RLHF实例,包含363k个独特示例。该数据集的关键特性包括移除RLHF实例和使用minhash和Jaccard相似性技术进行去重。数据集采用基本的sharegpt格式,包含系统、人类和GPT三种消息角色,分别用于提供指令、提出查询和生成响应。
提供机构:
philschmid
原始信息汇总

SlimOrca Dedup 数据集概述

基本信息

  • 许可证: MIT
  • 任务类别:
    • 文本分类
    • 问答
    • 文本生成
  • 标签:
    • 代码
    • 艺术
    • 音乐
    • 法律
    • 金融
    • 生物学
    • 化学
  • 数据集名称: SlimOrca Dedup
  • 数据集大小: 100K<n<1M

数据集描述

"SlimOrca Dedup" 是一个去重且未经筛选的 SlimOrca 数据集子集,排除了 RLHF 实例,包含 363k 个唯一示例。

关键特性

  • 移除 RLHF 实例。
  • 使用 minhash 和 Jaccard 相似性技术进行去重。

数据集格式

基本结构

数据集使用基本的 sharegpt 格式。示例和模式解释如下: json { "conversations": [ {"from": "system", "value": "You are an AI assistant..."}, {"from": "human", "value": "Write an article based on this..."}, {"from": "gpt", "value": "Title: Tragedy Strikes in Sydney..."} ] }

消息格式

  • "from": 字符串,指示消息的发送者。可能的发送者有 "system"、"human" 和 "gpt"。
  • "value": 字符串,包含发送者的消息或指令。

消息角色

  • System: 系统提供任务的指令或指南给大型语言模型(LLM)。
  • Human: 人类提供 AI 模型响应的提示或查询。
  • GPT: 语言模型,根据人类提供的提示或查询生成响应或内容。此角色的消息仅在人类角色的消息之后出现。

引用

bibtex @misc{SlimOrcaDedup, title = {SlimOrca Dedup: A Deduplicated Subset of SlimOrca}, author = {Wing Lian and Guan Wang and Bleys Goodson and Eugene Pentland and Austin Cook and Chanvichet Vong and "Teknium" and Nathan Hoos}, year = {2023}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/Open-Orca/SlimOrca-Dedup/} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作