five

Trelis/openassistant-deepseek-coder

收藏
Hugging Face2024-01-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Trelis/openassistant-deepseek-coder
下载链接
链接失效反馈
官方服务:
资源简介:
OpenAssistant Conversations Dataset (OASST1) 是一个由人类生成和注释的助手风格对话语料库。该数据集包含 161,443 条消息,涉及 35 种不同语言,并标注了 461,292 条质量评分,形成了超过 10,000 个完全注释的对话树。该数据集是来自全球 13,500 多名志愿者的众包努力的成果。数据集中的每条消息树都有一个初始提示消息作为根节点,可以有多个回复作为子节点,这些子节点也可以有多个回复。所有消息都有一个角色属性,可以是 assistant 或 prompter。对话线程中的角色从提示到叶节点严格交替为 prompter 和 assistant。

OpenAssistant Conversations Dataset (OASST1) 是一个由人类生成和注释的助手风格对话语料库。该数据集包含 161,443 条消息,涉及 35 种不同语言,并标注了 461,292 条质量评分,形成了超过 10,000 个完全注释的对话树。该数据集是来自全球 13,500 多名志愿者的众包努力的成果。数据集中的每条消息树都有一个初始提示消息作为根节点,可以有多个回复作为子节点,这些子节点也可以有多个回复。所有消息都有一个角色属性,可以是 assistant 或 prompter。对话线程中的角色从提示到叶节点严格交替为 prompter 和 assistant。
提供机构:
Trelis
原始信息汇总

数据集概述

数据集名称

  • 名称: Filtered OpenAssistant Conversations

数据集描述

  • 概述: 该数据集用于微调聊天模型,基于OpenAssistant DeepSeek Coder的对话数据。
  • 语言: 包含多种语言,如英语、西班牙语、俄语、德语等。
  • 标签: 包含标签如human-feedback和deepseek coder。
  • 大小: 数据集大小在1K到10k之间。

数据集准备

  • 源数据: 数据集源自TimDettmers,是Open Assistant数据集的一个子集,包含9,846个样本。
  • 处理步骤:
    • 将### Human:替换为B_INST
    • 将### Assistant:替换为E_INST
    • 确保助手回复以正确的EOS结束

数据集结构

  • 数据格式: 包含消息树,每个消息树有一个初始提示消息作为根节点,可以有多个子消息作为回复。
  • 消息属性: 每个消息包含角色属性(如"assistant"或"prompter"),角色在对话线程中严格交替。

数据集文件

  • 主要文件:
    • 2023-04-12_oasst_ready.trees.jsonl.gz: 包含10,364个树和88,838个消息。
    • 2023-04-12_oasst_ready.messages.jsonl.gz: 包含88,838个消息。
  • 其他文件:
    • 2023-04-12_oasst_all.trees.jsonl.gz: 包含66,497个树和161,443个消息。
    • 2023-04-12_oasst_all.messages.jsonl.gz: 包含161,443个消息。

使用方法

  • 加载数据集: 可以使用Huggingface Datasets库加载数据集。 python from datasets import load_dataset ds = load_dataset("OpenAssistant/oasst1") train = ds[train] # len(train)=84437 (95%) val = ds[validation] # len(val)=4401 (5%)

联系信息

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作