philschmid/slimorca-dedup-chatml-100k
收藏Hugging Face2024-02-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/philschmid/slimorca-dedup-chatml-100k
下载链接
链接失效反馈官方服务:
资源简介:
SlimOrca Dedup是一个去重且未经过滤的SlimOrca数据集子集,排除了RLHF实例,包含363k个独特示例。该数据集的关键特性包括移除RLHF实例和使用minhash和Jaccard相似性技术进行去重。数据集采用基本的sharegpt格式,包含系统、人类和GPT三种消息角色,分别用于提供指令、提出查询和生成响应。
SlimOrca Dedup是一个去重且未经过滤的SlimOrca数据集子集,排除了RLHF实例,包含363k个独特示例。该数据集的关键特性包括移除RLHF实例和使用minhash和Jaccard相似性技术进行去重。数据集采用基本的sharegpt格式,包含系统、人类和GPT三种消息角色,分别用于提供指令、提出查询和生成响应。
提供机构:
philschmid
原始信息汇总
SlimOrca Dedup 数据集概述
基本信息
- 许可证: MIT
- 任务类别:
- 文本分类
- 问答
- 文本生成
- 标签:
- 代码
- 艺术
- 音乐
- 法律
- 金融
- 生物学
- 化学
- 数据集名称: SlimOrca Dedup
- 数据集大小: 100K<n<1M
数据集描述
"SlimOrca Dedup" 是一个去重且未经筛选的 SlimOrca 数据集子集,排除了 RLHF 实例,包含 363k 个唯一示例。
关键特性
- 移除 RLHF 实例。
- 使用 minhash 和 Jaccard 相似性技术进行去重。
数据集格式
基本结构
数据集使用基本的 sharegpt 格式。示例和模式解释如下: json { "conversations": [ {"from": "system", "value": "You are an AI assistant..."}, {"from": "human", "value": "Write an article based on this..."}, {"from": "gpt", "value": "Title: Tragedy Strikes in Sydney..."} ] }
消息格式
- "from": 字符串,指示消息的发送者。可能的发送者有 "system"、"human" 和 "gpt"。
- "value": 字符串,包含发送者的消息或指令。
消息角色
- System: 系统提供任务的指令或指南给大型语言模型(LLM)。
- Human: 人类提供 AI 模型响应的提示或查询。
- GPT: 语言模型,根据人类提供的提示或查询生成响应或内容。此角色的消息仅在人类角色的消息之后出现。
引用
bibtex @misc{SlimOrcaDedup, title = {SlimOrca Dedup: A Deduplicated Subset of SlimOrca}, author = {Wing Lian and Guan Wang and Bleys Goodson and Eugene Pentland and Austin Cook and Chanvichet Vong and "Teknium" and Nathan Hoos}, year = {2023}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/Open-Orca/SlimOrca-Dedup/} }



