RajChat/Chatgpt
收藏Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/RajChat/Chatgpt
下载链接
链接失效反馈官方服务:
资源简介:
OpenAssistant Conversations数据集(OASST1)是一个由人类生成和注释的助手风格对话语料库,包含35种语言的161,443条消息,标注了461,292个质量评分,形成了超过10,000个完全注释的对话树。该数据集是全球范围内超过13,500名志愿者参与的众包努力的产物。数据集的结构包括消息树,每个消息树有一个初始提示消息作为根节点,可以有多个子消息作为回复,这些子消息也可以有多个回复。所有消息都有一个角色属性,可以是“assistant”或“prompter”。
OpenAssistant Conversations数据集(OASST1)是一个由人类生成和注释的助手风格对话语料库,包含35种语言的161,443条消息,标注了461,292个质量评分,形成了超过10,000个完全注释的对话树。该数据集是全球范围内超过13,500名志愿者参与的众包努力的产物。数据集的结构包括消息树,每个消息树有一个初始提示消息作为根节点,可以有多个子消息作为回复,这些子消息也可以有多个回复。所有消息都有一个角色属性,可以是“assistant”或“prompter”。
提供机构:
RajChat
原始信息汇总
数据集概述
名称: OpenAssistant Conversations (OASST1)
语言支持: 该数据集支持35种语言,包括但不限于英语、西班牙语、俄语、德语、中文等。
许可证: Apache-2.0
数据集大小:
- 下载大小: 41606430字节
- 数据集大小: 105740011字节
- 类别大小: 100K<n<1M
数据集结构:
- 特征:
- message_id, parent_id, user_id, created_date, text, role, lang, review_count, review_result, deleted, rank, synthetic, model_name, detoxify, message_tree_id, tree_state, emojis, labels
- 其中detoxify包含多个子特征:toxicity, severe_toxicity, obscene, identity_attack, insult, threat, sexual_explicit
- emojis和labels为序列类型,包含name, count等子特征
- 分割:
- 训练集: 84437个样本,100489994字节
- 验证集: 4401个样本,5250017字节
数据集内容:
- 包含161,443条消息,分布在35种不同语言中,注释了461,292个质量评级,形成了超过10,000个完全注释的对话树。
- 对话树结构:每个对话树有一个初始提示消息作为根节点,可以有多个子消息作为回复,子消息可以有多个回复。消息角色严格交替为“助手”或“提示者”。
文件格式:
- 对话数据提供为树形结构的消息(
.trees.jsonl.gz)或平铺列表(.messages.jsonl.gz)。 - 示例包括消息和对话树的JSON格式。
使用指南:
- 数据集可通过Huggingface Datasets加载,支持训练和验证分割。
- 完整的对话树可以通过
parent_id和message_id属性重建。
语言分布:
- 详细列出了每种语言的消息数量,其中英语、西班牙语、俄语等语言的消息数量超过1000条。
数据集使用
加载数据: python from datasets import load_dataset ds = load_dataset("OpenAssistant/oasst1") train = ds[train] # len(train)=84437 (95%) val = ds[validation] # len(val)=4401 (5%)
数据重建:
- 使用
parent_id和message_id属性识别消息的父子关系。 - 使用
message_tree_id和tree_state属性查找消息树的所有消息或按状态选择树。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



