five

RajChat/Chatgpt

收藏
Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/RajChat/Chatgpt
下载链接
链接失效反馈
官方服务:
资源简介:
OpenAssistant Conversations数据集(OASST1)是一个由人类生成和注释的助手风格对话语料库,包含35种语言的161,443条消息,标注了461,292个质量评分,形成了超过10,000个完全注释的对话树。该数据集是全球范围内超过13,500名志愿者参与的众包努力的产物。数据集的结构包括消息树,每个消息树有一个初始提示消息作为根节点,可以有多个子消息作为回复,这些子消息也可以有多个回复。所有消息都有一个角色属性,可以是“assistant”或“prompter”。

OpenAssistant Conversations数据集(OASST1)是一个由人类生成和注释的助手风格对话语料库,包含35种语言的161,443条消息,标注了461,292个质量评分,形成了超过10,000个完全注释的对话树。该数据集是全球范围内超过13,500名志愿者参与的众包努力的产物。数据集的结构包括消息树,每个消息树有一个初始提示消息作为根节点,可以有多个子消息作为回复,这些子消息也可以有多个回复。所有消息都有一个角色属性,可以是“assistant”或“prompter”。
提供机构:
RajChat
原始信息汇总

数据集概述

名称: OpenAssistant Conversations (OASST1)

语言支持: 该数据集支持35种语言,包括但不限于英语、西班牙语、俄语、德语、中文等。

许可证: Apache-2.0

数据集大小:

  • 下载大小: 41606430字节
  • 数据集大小: 105740011字节
  • 类别大小: 100K<n<1M

数据集结构:

  • 特征:
    • message_id, parent_id, user_id, created_date, text, role, lang, review_count, review_result, deleted, rank, synthetic, model_name, detoxify, message_tree_id, tree_state, emojis, labels
    • 其中detoxify包含多个子特征:toxicity, severe_toxicity, obscene, identity_attack, insult, threat, sexual_explicit
    • emojis和labels为序列类型,包含name, count等子特征
  • 分割:
    • 训练集: 84437个样本,100489994字节
    • 验证集: 4401个样本,5250017字节

数据集内容:

  • 包含161,443条消息,分布在35种不同语言中,注释了461,292个质量评级,形成了超过10,000个完全注释的对话树。
  • 对话树结构:每个对话树有一个初始提示消息作为根节点,可以有多个子消息作为回复,子消息可以有多个回复。消息角色严格交替为“助手”或“提示者”。

文件格式:

  • 对话数据提供为树形结构的消息(.trees.jsonl.gz)或平铺列表(.messages.jsonl.gz)。
  • 示例包括消息和对话树的JSON格式。

使用指南:

  • 数据集可通过Huggingface Datasets加载,支持训练和验证分割。
  • 完整的对话树可以通过parent_idmessage_id属性重建。

语言分布:

  • 详细列出了每种语言的消息数量,其中英语、西班牙语、俄语等语言的消息数量超过1000条。

数据集使用

加载数据: python from datasets import load_dataset ds = load_dataset("OpenAssistant/oasst1") train = ds[train] # len(train)=84437 (95%) val = ds[validation] # len(val)=4401 (5%)

数据重建:

  • 使用parent_idmessage_id属性识别消息的父子关系。
  • 使用message_tree_idtree_state属性查找消息树的所有消息或按状态选择树。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作