five

Trelis/openassistant-falcon

收藏
Hugging Face2023-11-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Trelis/openassistant-falcon
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于微调聊天模型,使用 Human:和 Assistant:来包装用户消息。数据集是从OpenAssistant Conversations Dataset (OASST1)中提取的一个子集,包含9,846个样本,经过过滤后用于微调聊天模型。数据集的结构包括消息树,每个消息树有一个初始提示消息作为根节点,可以有多个子消息作为回复。所有消息都有一个角色属性,可以是“assistant”或“prompter”。数据集还提供了JSON示例,展示了消息和对话树的结构。

This dataset is designed for fine-tuning chat models, where user messages are prefixed with "Human:" and assistant responses are prefixed with "Assistant:". It is a filtered subset extracted from the OpenAssistant Conversations Dataset (OASST1), comprising 9,846 samples. The dataset is structured as message trees: each tree takes an initial prompt as its root node, and may have multiple child messages serving as replies. Every message has a role attribute, which can be either "assistant" or "prompter". The dataset also provides JSON examples that demonstrate the structure of messages and conversation trees.
提供机构:
Trelis
原始信息汇总

数据集概述

数据集名称

Filtered OpenAssistant Conversations

数据集描述

该数据集是从Open Assistant数据集中筛选出的子集,仅包含对话树中最高评分的路径,共有9,846个样本。数据集用于微调聊天模型,使用 Human:和 Assistant:来包装用户消息,并使用<|endoftext|>作为EOS和BOS标记。

语言支持

数据集支持多种语言,包括但不限于:

  • 英语
  • 西班牙语
  • 俄语
  • 德语
  • 波兰语
  • 泰语
  • 越南语
  • 瑞典语
  • 孟加拉语
  • 丹麦语
  • 希伯来语
  • 意大利语
  • 波斯语
  • 斯洛伐克语
  • 印度尼西亚语
  • 挪威语
  • 希腊语
  • 荷兰语
  • 匈牙利语
  • 世界语
  • 中文
  • 日语
  • 加泰罗尼亚语
  • 捷克语
  • 保加利亚语
  • 芬兰语
  • 葡萄牙语
  • 土耳其语
  • 罗马尼亚语
  • 阿拉伯语
  • 乌克兰语
  • 加利西亚语
  • 法语
  • 韩语

数据集结构

数据集包含消息树,每个消息树有一个初始提示消息作为根节点,可以有多个子消息作为回复,这些子消息也可以有多个回复。所有消息都有一个角色属性,可以是“助手”或“提示者”。对话线程中的角色从提示到叶节点严格交替。

数据格式

数据以JSON格式提供,包括消息和对话树的示例。消息包含多个属性,如消息ID、父ID、用户ID、文本、角色、语言、审查次数、审查结果、删除状态、排名、合成状态、模型名称和标签。

数据文件

数据集提供两种格式的文件:

  • .trees.jsonl.gz:包含嵌套消息的树结构。
  • .messages.jsonl.gz:包含平铺消息列表。

使用示例

可以使用Huggingface Datasets库加载数据集,示例如下: python from datasets import load_dataset ds = load_dataset("OpenAssistant/oasst1") train = ds[train] # len(train)=84437 (95%) val = ds[validation] # len(val)=4401 (5%)

语言分布

数据集包含35种不同的语言,其中超过1000条消息的语言有:

  • 英语:71956
  • 西班牙语:43061
  • 俄语:9089
  • 德语:5279
  • 中文:4962
  • 法语:4251
  • 泰语:3042
  • 葡萄牙语(巴西):2969
  • 加泰罗尼亚语:2260
  • 韩语:1553
  • 乌克兰语:1352
  • 意大利语:1320
  • 日语:1018

其他语言的消息数量较少,具体分布请参考原始文档。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Trelis/openassistant-falcon是一个基于Open Assistant Conversations(OASST1)的聊天微调数据集,包含约10,364条多语言对话数据,主要用于通过'\nHuman:'和'\nAssistant:'格式训练模型响应生成。其特点包括经过预处理以统一消息格式、支持多种语言(如英语、西班牙语、俄语等),并源自人类生成和标注的高质量对话树,适用于聊天模型的监督微调。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作