five

OpenAssistant/oasst1|自然语言处理数据集|数据科学数据集

收藏
hugging_face2023-05-02 更新2024-03-04 收录
自然语言处理
数据科学
下载链接:
https://hf-mirror.com/datasets/OpenAssistant/oasst1
下载链接
链接失效反馈
资源简介:
OpenAssistant Conversations数据集(OASST1)是一个由人类生成和标注的助手风格对话语料库,包含161,443条消息,涉及35种不同语言,并包含461,292条质量评分,形成了超过10,000个完全标注的对话树。该数据集是全球超过13,500名志愿者通过众包方式生成的。数据集的主要结构是消息树,每条消息树以一个初始提示消息为根节点,可以有多个子消息作为回复,这些子消息也可以有多个回复。每条消息都有一个角色属性,可以是“assistant”或“prompter”。数据集还提供了JSON格式的消息和对话树示例,并详细说明了如何使用Huggingface Datasets加载数据集。
提供机构:
OpenAssistant
原始信息汇总

数据集概述

数据集名称: OpenAssistant Conversations (OASST1)

数据集内容: 包含161,443条消息,涉及35种语言,共有461,292个质量评分,形成超过10,000个完全注释的对话树。

数据集结构: 数据集包含消息树,每个消息树以初始提示消息为根节点,可以有多条回复消息作为子节点,子节点也可以有多个回复。

消息属性:

  • message_id: 字符串
  • parent_id: 字符串
  • user_id: 字符串
  • created_date: 字符串
  • text: 字符串
  • role: 字符串("assistant" 或 "prompter")
  • lang: 字符串
  • review_count: int32
  • review_result: bool
  • deleted: bool
  • rank: int32
  • synthetic: bool
  • model_name: 字符串
  • detoxify: 结构体,包含多种毒性评估指标
  • message_tree_id: 字符串
  • tree_state: 字符串
  • emojis: 序列,包含名称和计数
  • labels: 序列,包含名称、值和计数

数据集分割:

  • 训练集(train): 84,437条消息,占用100,367,999字节
  • 验证集(validation): 4,401条消息,占用5,243,405字节

数据集大小:

  • 下载大小: 41,596,430字节
  • 数据集大小: 105,611,404字节

支持语言: 包括但不限于英语、西班牙语、俄语、德语、波兰语、泰语等35种语言。

数据集文件:

  • 准备导出的树: 10,364棵树,包含88,838条消息
  • 所有树: 66,497棵树,包含161,443条消息
  • 补充导出:垃圾邮件与提示: 包含被删除或评价结果为负的消息

使用Huggingface数据集: 数据集支持通过Huggingface Datasets加载,适用于训练和验证集的加载。

数据集使用

数据集可通过Huggingface Datasets加载,支持训练和验证集的直接加载。数据集中的消息以深度优先顺序排列,可通过parent_idmessage_id重建对话树结构。

AI搜集汇总
数据集介绍
main_image_url
构建方式
OpenAssistant/oasst1数据集是一个由全球超过13,500名志愿者参与构建的对话语料库,包含35种语言的161,443条由人类生成并注释的对话信息。该数据集通过众包的方式收集,每个对话树以一个初始提示信息为根节点,下面可以有多个回复信息作为子节点,这些子节点又可以有多个回复,形成一个多层次的对话结构。数据集中的每条信息都被标注了角色(提问者或助手),并附有包括语言、创建日期、是否为垃圾信息、毒性评分等多种属性,以及质量评价标签。
特点
该数据集的特点在于其多语言覆盖广,包含35种语言,且对话树结构丰富,每个对话树的初始提示和回复交替进行,形成了完整的对话场景。此外,数据集还提供了详细的评价标签和毒性评分,有助于对对话质量进行深入分析。数据集分为训练集和验证集,方便不同阶段的模型训练和评估。
使用方法
使用该数据集时,可以通过Huggingface的Datasets库直接加载训练集和验证集。若需使用完整的对话树结构,可以通过解析消息中的parent_id和message_id属性来重建对话树。此外,数据集还提供了方便的JSON格式文件,可以通过Python代码进行读取和写入操作,用户可以根据具体需求选择不同的数据文件进行研究和开发。
背景与挑战
背景概述
OpenAssistant Conversations(OASST1)数据集是由LAION-AI组织于2023年发布的一个大规模的人类生成、人类注释的对话语料库。该数据集包含35种语言的161,443条消息,经过461,292次质量评分,形成了超过10,000个完整的对话树。这个语料库是全球范围内超过13,500名志愿者共同努力的成果,旨在推动大规模对齐研究的发展,并促进相关技术的民主化。
当前挑战
该数据集在构建过程中遇到的挑战主要包括如何确保对话的质量和多样性,以及如何有效地处理和整合来自不同语言和文化背景的数据。此外,在研究领域中,如何利用该数据集进行有效的对话系统训练和评估,以及如何处理对话中的敏感内容和毒性问题,也是当前面临的挑战。
常用场景
经典使用场景
OpenAssistant/oasst1数据集作为一个人工智能助手风格的对话语料库,其经典使用场景在于自然语言处理领域,尤其是对话系统的构建与优化。研究人员可以利用该数据集进行对话生成模型的训练,以提高模型对多轮对话的理解与响应能力,进而提升用户交互体验。
实际应用
在实际应用中,OpenAssistant/oasst1数据集可以被用于开发智能客服系统、聊天机器人以及语音助手等,以提升这些系统的自然语言理解和交互能力,从而提高服务效率和用户满意度。
衍生相关工作
基于OpenAssistant/oasst1数据集,衍生出了多项相关工作,包括对话系统的性能评估、多语言对话模型的构建、对话生成策略的研究等,这些工作进一步推动了自然语言处理领域的发展,并促进了人工智能技术的应用普及。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

ICESat-2 Data

ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。

icesat-2.gsfc.nasa.gov 收录

12306车次数据库

本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。

github 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录