OpenAssistant/oasst2

Name: OpenAssistant/oasst2
Creator: OpenAssistant
Published: 2024-01-11 06:09:29
License: 暂无描述

Hugging Face2024-01-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/OpenAssistant/oasst2

下载链接

链接失效反馈

官方服务：

资源简介：

OpenAssistant Conversations Release 2 (OASST2)数据集包含消息树，每个消息树以一个初始提示消息作为根节点，可以有多个子消息作为回复，这些子消息也可以有多个回复。所有消息都有一个角色属性，可以是“assistant”或“prompter”。数据集还包括多种语言的消息，并且提供了详细的JSON示例来说明消息和对话树的结构。此外，数据集还提供了主要文件信息、统计数据和如何使用Huggingface Datasets加载数据集的说明。

The OpenAssistant Conversations Release 2 (OASST2) dataset comprises message trees, where each tree takes an initial prompt message as its root node. Each tree may have multiple child messages serving as replies, and these child messages can in turn have their own multiple replies. All messages possess a role attribute that can be either "assistant" or "prompter". The dataset includes messages in a variety of languages, and provides detailed JSON examples to demonstrate the structure of individual messages and conversation trees. Furthermore, the dataset offers core file information, statistical summaries, and guidance on loading the dataset via the Huggingface Datasets library.

提供机构：

OpenAssistant

原始信息汇总

数据集概述

数据集名称

名称: Open Assistant Conversations Release 2 (OASST2)
别名: OASST2

数据集内容

类型: 对话数据集
结构: 包含消息树，每个消息树以初始提示消息为根节点，可以有多级回复。
角色: 消息角色分为“assistant”和“prompter”，对话中严格交替出现。

数据集特征

特征列表:
- message_id (字符串)
- parent_id (字符串)
- user_id (字符串)
- created_date (字符串)
- text (字符串)
- role (字符串)
- lang (字符串)
- review_count (整数)
- review_result (布尔值)
- deleted (布尔值)
- rank (整数)
- synthetic (布尔值)
- model_name (字符串)
- detoxify (结构体，包含多种毒性评分，均为浮点数)
- message_tree_id (字符串)
- tree_state (字符串)
- emojis (序列，包含名称和计数，分别为字符串和整数)
- labels (序列，包含名称、值和计数，分别为字符串、浮点数和整数)

数据集分割

训练集: 128,575个样本，大小为158,850,455字节
验证集: 6,599个样本，大小为7,963,122字节

数据集大小

下载大小: 66,674,129字节
数据集大小: 166,813,577字节

支持语言

支持多种语言，包括但不限于英语、西班牙语、俄语、德语、波兰语、泰语等。

数据集文件

消息树文件: .trees.jsonl.gz
平铺消息文件: .messages.jsonl.gz

数据集状态

准备导出状态: 包含13,854个树，总计135,174条消息
全部状态: 包含70,642个树，总计208,584条消息

补充导出

垃圾消息: 19,296条匹配消息
提示消息: 64,592条匹配消息

使用Huggingface数据集

提供训练和验证分割，可直接通过Huggingface Datasets加载。

数据可视化

使用Bunka技术进行数据可视化，提供交互式地图探索数据内容。

搜集汇总

数据集介绍

构建方式

OpenAssistant/oasst2数据集通过收集open-assistant.io网站上的对话树构建而成，每棵树以一个初始提示信息为根节点，可以有多个子消息作为回复，这些子消息又可以有多个回复。所有消息均具有角色属性，角色在对话线程中严格交替为“提示者”和“助手”。

特点

该数据集的特点在于包含了多种语言的消息，并提供了每个消息的详细信息，如消息ID、父消息ID、用户ID、创建日期、文本内容、角色、语言等。此外，数据集还提供了脱毒评分、接受消息数、删除消息数等统计信息，以及不同状态下的树的数量和按语言划分的消息数量。

使用方法

使用Huggingface Datasets库，可以直接加载oasst2的训练和验证数据集。数据集提供了两种格式，一种是嵌套的消息树，另一种是平铺的消息列表。可以通过parent_id和message_id属性重构完整的对话树。

背景与挑战

背景概述

OpenAssistant Conversations Dataset Release 2（OASST2）是由LAION-AI团队创建的，旨在为对话生成和人工智能助手训练提供支持。该数据集收集了截至2023年11月5日在open-assistant.io网站上的对话数据，包含了多种语言的交流记录。OASST2数据集的结构设计独特，以树的形式存储对话，每个树包含一个初始提示消息及其回复，这些回复又可以有多个回复，形成了嵌套的对话结构。该数据集的研究背景主要围绕提升人工智能助手的对话质量和交互体验，对相关领域产生了深远的影响。

当前挑战

在构建该数据集的过程中，研究人员面临了诸多挑战。首先，如何确保收集到的对话数据的多样性和质量是一个挑战，因为这直接关系到数据集的有效性和适用性。其次，构建过程中对对话树的合理表示和存储也提出了技术要求。此外，数据集中还包含了对消息的审核和评级，这要求高效率的自动化处理机制以处理大量数据。在研究领域问题方面，OASST2数据集面临的挑战包括如何更准确地模拟人类对话模式，以及如何在多语言环境中保持一致的性能标准。

常用场景

经典使用场景

OpenAssistant/oasst2数据集作为对话树的集合，其经典使用场景在于自然语言处理领域，尤其是对话系统的构建与优化。研究者可以借助该数据集进行对话生成模型的训练，以学习如何在特定上下文中生成连贯且相关的回复。

衍生相关工作

基于OpenAssistant/oasst2数据集，研究者衍生出了一系列相关工作，包括对话模型的效果评估方法、多语言对话系统的开发，以及对话内容的质量控制与毒性检测等。

数据集最近研究