RajChat/Chatgpt

Name: RajChat/Chatgpt
Creator: RajChat
Published: 2024-06-07 14:23:01
License: 暂无描述

Hugging Face2024-06-07 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/RajChat/Chatgpt

下载链接

链接失效反馈

官方服务：

资源简介：

OpenAssistant Conversations数据集（OASST1）是一个由人类生成和注释的助手风格对话语料库，包含35种语言的161,443条消息，标注了461,292个质量评分，形成了超过10,000个完全注释的对话树。该数据集是全球范围内超过13,500名志愿者参与的众包努力的产物。数据集的结构包括消息树，每个消息树有一个初始提示消息作为根节点，可以有多个子消息作为回复，这些子消息也可以有多个回复。所有消息都有一个角色属性，可以是“assistant”或“prompter”。

提供机构：

RajChat

原始信息汇总

数据集概述

名称： OpenAssistant Conversations (OASST1)

语言支持： 该数据集支持35种语言，包括但不限于英语、西班牙语、俄语、德语、中文等。

许可证： Apache-2.0

数据集大小：

下载大小： 41606430字节
数据集大小： 105740011字节
类别大小： 100K<n<1M

数据集结构：

特征：
- message_id, parent_id, user_id, created_date, text, role, lang, review_count, review_result, deleted, rank, synthetic, model_name, detoxify, message_tree_id, tree_state, emojis, labels
- 其中detoxify包含多个子特征：toxicity, severe_toxicity, obscene, identity_attack, insult, threat, sexual_explicit
- emojis和labels为序列类型，包含name, count等子特征
分割：
- 训练集： 84437个样本，100489994字节
- 验证集： 4401个样本，5250017字节

数据集内容：

包含161,443条消息，分布在35种不同语言中，注释了461,292个质量评级，形成了超过10,000个完全注释的对话树。
对话树结构：每个对话树有一个初始提示消息作为根节点，可以有多个子消息作为回复，子消息可以有多个回复。消息角色严格交替为“助手”或“提示者”。

文件格式：

对话数据提供为树形结构的消息（.trees.jsonl.gz）或平铺列表（.messages.jsonl.gz）。
示例包括消息和对话树的JSON格式。

使用指南：

数据集可通过Huggingface Datasets加载，支持训练和验证分割。
完整的对话树可以通过parent_id和message_id属性重建。

语言分布：

详细列出了每种语言的消息数量，其中英语、西班牙语、俄语等语言的消息数量超过1000条。

数据集使用

加载数据： python from datasets import load_dataset ds = load_dataset("OpenAssistant/oasst1") train = ds[train] # len(train)=84437 (95%) val = ds[validation] # len(val)=4401 (5%)

数据重建：

使用parent_id和message_id属性识别消息的父子关系。
使用message_tree_id和tree_state属性查找消息树的所有消息或按状态选择树。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集