Trelis/openassistant-falcon
收藏Hugging Face2023-11-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Trelis/openassistant-falcon
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于微调聊天模型,使用
Human:和
Assistant:来包装用户消息。数据集是从OpenAssistant Conversations Dataset (OASST1)中提取的一个子集,包含9,846个样本,经过过滤后用于微调聊天模型。数据集的结构包括消息树,每个消息树有一个初始提示消息作为根节点,可以有多个子消息作为回复。所有消息都有一个角色属性,可以是“assistant”或“prompter”。数据集还提供了JSON示例,展示了消息和对话树的结构。
This dataset is designed for fine-tuning chat models, where user messages are prefixed with "Human:" and assistant responses are prefixed with "Assistant:". It is a filtered subset extracted from the OpenAssistant Conversations Dataset (OASST1), comprising 9,846 samples. The dataset is structured as message trees: each tree takes an initial prompt as its root node, and may have multiple child messages serving as replies. Every message has a role attribute, which can be either "assistant" or "prompter". The dataset also provides JSON examples that demonstrate the structure of messages and conversation trees.
提供机构:
Trelis
原始信息汇总
数据集概述
数据集名称
Filtered OpenAssistant Conversations
数据集描述
该数据集是从Open Assistant数据集中筛选出的子集,仅包含对话树中最高评分的路径,共有9,846个样本。数据集用于微调聊天模型,使用 Human:和 Assistant:来包装用户消息,并使用<|endoftext|>作为EOS和BOS标记。
语言支持
数据集支持多种语言,包括但不限于:
- 英语
- 西班牙语
- 俄语
- 德语
- 波兰语
- 泰语
- 越南语
- 瑞典语
- 孟加拉语
- 丹麦语
- 希伯来语
- 意大利语
- 波斯语
- 斯洛伐克语
- 印度尼西亚语
- 挪威语
- 希腊语
- 荷兰语
- 匈牙利语
- 世界语
- 中文
- 日语
- 加泰罗尼亚语
- 捷克语
- 保加利亚语
- 芬兰语
- 葡萄牙语
- 土耳其语
- 罗马尼亚语
- 阿拉伯语
- 乌克兰语
- 加利西亚语
- 法语
- 韩语
数据集结构
数据集包含消息树,每个消息树有一个初始提示消息作为根节点,可以有多个子消息作为回复,这些子消息也可以有多个回复。所有消息都有一个角色属性,可以是“助手”或“提示者”。对话线程中的角色从提示到叶节点严格交替。
数据格式
数据以JSON格式提供,包括消息和对话树的示例。消息包含多个属性,如消息ID、父ID、用户ID、文本、角色、语言、审查次数、审查结果、删除状态、排名、合成状态、模型名称和标签。
数据文件
数据集提供两种格式的文件:
.trees.jsonl.gz:包含嵌套消息的树结构。.messages.jsonl.gz:包含平铺消息列表。
使用示例
可以使用Huggingface Datasets库加载数据集,示例如下: python from datasets import load_dataset ds = load_dataset("OpenAssistant/oasst1") train = ds[train] # len(train)=84437 (95%) val = ds[validation] # len(val)=4401 (5%)
语言分布
数据集包含35种不同的语言,其中超过1000条消息的语言有:
- 英语:71956
- 西班牙语:43061
- 俄语:9089
- 德语:5279
- 中文:4962
- 法语:4251
- 泰语:3042
- 葡萄牙语(巴西):2969
- 加泰罗尼亚语:2260
- 韩语:1553
- 乌克兰语:1352
- 意大利语:1320
- 日语:1018
其他语言的消息数量较少,具体分布请参考原始文档。
搜集汇总
数据集介绍

背景与挑战
背景概述
Trelis/openassistant-falcon是一个基于Open Assistant Conversations(OASST1)的聊天微调数据集,包含约10,364条多语言对话数据,主要用于通过'\nHuman:'和'\nAssistant:'格式训练模型响应生成。其特点包括经过预处理以统一消息格式、支持多种语言(如英语、西班牙语、俄语等),并源自人类生成和标注的高质量对话树,适用于聊天模型的监督微调。
以上内容由遇见数据集搜集并总结生成



