Trelis/openassistant-llama-style
收藏Hugging Face2023-10-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Trelis/openassistant-llama-style
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于微调聊天模型,使用[INST]和[/INST]来包装用户消息。数据集是从OpenAssistant Conversations Dataset (OASST1)中提取的一个子集,包含了最高评分的对话路径,并经过特定格式的过滤处理。数据集包含9,846个样本,涵盖了35种不同的语言,主要用于聊天模型的微调。
提供机构:
Trelis
原始信息汇总
数据集概述
数据集名称
Filtered OpenAssistant Conversations
数据集描述
该数据集用于微调聊天模型,使用 [INST] 和 [/INST] 包裹用户消息。
数据集来源
该数据集是从 TimDettmers 克隆的,是 Open Assistant 数据集的一个子集,仅包含对话树中评分最高的路径,共有 9,846 个样本。
数据集处理
数据集经过以下过滤处理:
- 将 ### Human: 替换为 [INST]
- 将 ### Assistant: 替换为 </s><s> [/INST]
- 如果一行数据以助手响应结束,则在行末添加 [INST]
原始数据集详情
数据集名称
OpenAssistant Conversations Dataset (OASST1)
数据集描述
OpenAssistant Conversations (OASST1) 是一个由人类生成和标注的助手风格对话语料库,包含 161,443 条消息,涉及 35 种不同语言,带有 461,292 个质量评分,形成了超过 10,000 个完全标注的对话树。该语料库是来自全球超过 13,500 名志愿者的共同努力成果。
数据集结构
数据集包含消息树,每个消息树有一个初始提示消息作为根节点,可以有多个子消息作为回复,这些子消息也可以有多个回复。所有消息都有一个角色属性,可以是 "assistant" 或 "prompter",对话线程中的角色从提示到叶节点严格交替。
数据集文件
- Ready For Export Trees: 包含 10,364 个树,共 88,838 条消息。
- All Trees: 包含 66,497 个树,共 161,443 条消息。
- Supplemental Exports: Spam & Prompts: 包含被删除或审核结果为负的消息。
语言分布
- 主要语言: 英语、西班牙语、俄语、德语、中文等。
- 其他语言: 越南语、巴斯克语、波兰语、匈牙利语等。
数据集使用
数据集可以直接通过 Huggingface Datasets 加载,适用于监督微调 (SFT) 和奖励模型 (RM) 训练。
联系方式
- Discord: Open Assistant Discord Server
- GitHub: LAION-AI/Open-Assistant
- E-Mail: open-assistant@laion.ai



