Trelis/openassistant-deepseek-coder
收藏Hugging Face2024-01-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Trelis/openassistant-deepseek-coder
下载链接
链接失效反馈官方服务:
资源简介:
OpenAssistant Conversations Dataset (OASST1) 是一个由人类生成和注释的助手风格对话语料库。该数据集包含 161,443 条消息,涉及 35 种不同语言,并标注了 461,292 条质量评分,形成了超过 10,000 个完全注释的对话树。该数据集是来自全球 13,500 多名志愿者的众包努力的成果。数据集中的每条消息树都有一个初始提示消息作为根节点,可以有多个回复作为子节点,这些子节点也可以有多个回复。所有消息都有一个角色属性,可以是 assistant 或 prompter。对话线程中的角色从提示到叶节点严格交替为 prompter 和 assistant。
OpenAssistant Conversations Dataset (OASST1) 是一个由人类生成和注释的助手风格对话语料库。该数据集包含 161,443 条消息,涉及 35 种不同语言,并标注了 461,292 条质量评分,形成了超过 10,000 个完全注释的对话树。该数据集是来自全球 13,500 多名志愿者的众包努力的成果。数据集中的每条消息树都有一个初始提示消息作为根节点,可以有多个回复作为子节点,这些子节点也可以有多个回复。所有消息都有一个角色属性,可以是 assistant 或 prompter。对话线程中的角色从提示到叶节点严格交替为 prompter 和 assistant。
提供机构:
Trelis
原始信息汇总
数据集概述
数据集名称
- 名称: Filtered OpenAssistant Conversations
数据集描述
- 概述: 该数据集用于微调聊天模型,基于OpenAssistant DeepSeek Coder的对话数据。
- 语言: 包含多种语言,如英语、西班牙语、俄语、德语等。
- 标签: 包含标签如human-feedback和deepseek coder。
- 大小: 数据集大小在1K到10k之间。
数据集准备
- 源数据: 数据集源自TimDettmers,是Open Assistant数据集的一个子集,包含9,846个样本。
- 处理步骤:
- 将### Human:替换为B_INST
- 将### Assistant:替换为E_INST
- 确保助手回复以正确的EOS结束
数据集结构
- 数据格式: 包含消息树,每个消息树有一个初始提示消息作为根节点,可以有多个子消息作为回复。
- 消息属性: 每个消息包含角色属性(如"assistant"或"prompter"),角色在对话线程中严格交替。
数据集文件
- 主要文件:
2023-04-12_oasst_ready.trees.jsonl.gz: 包含10,364个树和88,838个消息。2023-04-12_oasst_ready.messages.jsonl.gz: 包含88,838个消息。
- 其他文件:
2023-04-12_oasst_all.trees.jsonl.gz: 包含66,497个树和161,443个消息。2023-04-12_oasst_all.messages.jsonl.gz: 包含161,443个消息。
使用方法
- 加载数据集: 可以使用Huggingface Datasets库加载数据集。 python from datasets import load_dataset ds = load_dataset("OpenAssistant/oasst1") train = ds[train] # len(train)=84437 (95%) val = ds[validation] # len(val)=4401 (5%)
联系信息
- Discord: Open Assistant Discord Server
- GitHub: LAION-AI/Open-Assistant
- 电子邮件: open-assistant@laion.ai



