five

Trelis/openassistant-llama-style

收藏
Hugging Face2023-10-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Trelis/openassistant-llama-style
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于微调聊天模型,使用[INST]和[/INST]来包装用户消息。数据集是从OpenAssistant Conversations Dataset (OASST1)中提取的一个子集,包含了最高评分的对话路径,并经过特定格式的过滤处理。数据集包含9,846个样本,涵盖了35种不同的语言,主要用于聊天模型的微调。
提供机构:
Trelis
原始信息汇总

数据集概述

数据集名称

Filtered OpenAssistant Conversations

数据集描述

该数据集用于微调聊天模型,使用 [INST] 和 [/INST] 包裹用户消息。

数据集来源

该数据集是从 TimDettmers 克隆的,是 Open Assistant 数据集的一个子集,仅包含对话树中评分最高的路径,共有 9,846 个样本。

数据集处理

数据集经过以下过滤处理:

  • 将 ### Human: 替换为 [INST]
  • 将 ### Assistant: 替换为 </s><s> [/INST]
  • 如果一行数据以助手响应结束,则在行末添加 [INST]

原始数据集详情

数据集名称

OpenAssistant Conversations Dataset (OASST1)

数据集描述

OpenAssistant Conversations (OASST1) 是一个由人类生成和标注的助手风格对话语料库,包含 161,443 条消息,涉及 35 种不同语言,带有 461,292 个质量评分,形成了超过 10,000 个完全标注的对话树。该语料库是来自全球超过 13,500 名志愿者的共同努力成果。

数据集结构

数据集包含消息树,每个消息树有一个初始提示消息作为根节点,可以有多个子消息作为回复,这些子消息也可以有多个回复。所有消息都有一个角色属性,可以是 "assistant" 或 "prompter",对话线程中的角色从提示到叶节点严格交替。

数据集文件

  • Ready For Export Trees: 包含 10,364 个树,共 88,838 条消息。
  • All Trees: 包含 66,497 个树,共 161,443 条消息。
  • Supplemental Exports: Spam & Prompts: 包含被删除或审核结果为负的消息。

语言分布

  • 主要语言: 英语、西班牙语、俄语、德语、中文等。
  • 其他语言: 越南语、巴斯克语、波兰语、匈牙利语等。

数据集使用

数据集可以直接通过 Huggingface Datasets 加载,适用于监督微调 (SFT) 和奖励模型 (RM) 训练。

联系方式

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作