agie-ai/OpenAssistant-oasst1
收藏Hugging Face2023-07-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/agie-ai/OpenAssistant-oasst1
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: message_id
dtype: string
- name: parent_id
dtype: string
- name: user_id
dtype: string
- name: created_date
dtype: string
- name: text
dtype: string
- name: role
dtype: string
- name: lang
dtype: string
- name: review_count
dtype: int32
- name: review_result
dtype: bool
- name: deleted
dtype: bool
- name: rank
dtype: int32
- name: synthetic
dtype: bool
- name: model_name
dtype: string
- name: detoxify
struct:
- name: toxicity
dtype: float64
- name: severe_toxicity
dtype: float64
- name: obscene
dtype: float64
- name: identity_attack
dtype: float64
- name: insult
dtype: float64
- name: threat
dtype: float64
- name: sexual_explicit
dtype: float64
- name: message_tree_id
dtype: string
- name: tree_state
dtype: string
- name: emojis
sequence:
- name: name
dtype: string
- name: count
dtype: int32
- name: labels
sequence:
- name: name
dtype: string
- name: value
dtype: float64
- name: count
dtype: int32
splits:
- name: train
num_bytes: 100489994
num_examples: 84437
- name: validation
num_bytes: 5250017
num_examples: 4401
download_size: 41603698
dataset_size: 105740011
---
# Dataset Card for "OpenAssistant-oasst1"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
数据集信息:
特征:
- 名称:message_id,数据类型:字符串
- 名称:parent_id,数据类型:字符串
- 名称:user_id,数据类型:字符串
- 名称:created_date,数据类型:字符串
- 名称:text,数据类型:字符串
- 名称:role,数据类型:字符串
- 名称:lang,数据类型:字符串
- 名称:review_count,数据类型:int32
- 名称:review_result,数据类型:布尔型
- 名称:deleted,数据类型:布尔型
- 名称:rank,数据类型:int32
- 名称:synthetic,数据类型:布尔型
- 名称:model_name,数据类型:字符串
- 名称:detoxify,结构体:
- 名称:toxicity,数据类型:float64
- 名称:severe_toxicity,数据类型:float64
- 名称:obscene,数据类型:float64
- 名称:identity_attack,数据类型:float64
- 名称:insult,数据类型:float64
- 名称:threat,数据类型:float64
- 名称:sexual_explicit,数据类型:float64
- 名称:message_tree_id,数据类型:字符串
- 名称:tree_state,数据类型:字符串
- 名称:emojis,序列:
- 名称:name,数据类型:字符串
- 名称:count,数据类型:int32
- 名称:labels,序列:
- 名称:name,数据类型:字符串
- 名称:value,数据类型:float64
- 名称:count,数据类型:int32
数据划分:
- 名称:train,字节大小:100489994,样本数量:84437
- 名称:validation,字节大小:5250017,样本数量:4401
下载总大小:41603698,数据集总存储大小:105740011
---
# 「OpenAssistant-oasst1」数据集卡片
【需补充更多信息】(https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
agie-ai
原始信息汇总
数据集概述
数据集名称
- 名称: OpenAssistant-oasst1
数据集特征
- message_id: 字符串类型
- parent_id: 字符串类型
- user_id: 字符串类型
- created_date: 字符串类型
- text: 字符串类型
- role: 字符串类型
- lang: 字符串类型
- review_count: 整数类型 (int32)
- review_result: 布尔类型
- deleted: 布尔类型
- rank: 整数类型 (int32)
- synthetic: 布尔类型
- model_name: 字符串类型
- detoxify: 结构体类型,包含以下特征:
- toxicity: 浮点数类型 (float64)
- severe_toxicity: 浮点数类型 (float64)
- obscene: 浮点数类型 (float64)
- identity_attack: 浮点数类型 (float64)
- insult: 浮点数类型 (float64)
- threat: 浮点数类型 (float64)
- sexual_explicit: 浮点数类型 (float64)
- message_tree_id: 字符串类型
- tree_state: 字符串类型
- emojis: 序列类型,包含以下特征:
- name: 字符串类型
- count: 整数类型 (int32)
- labels: 序列类型,包含以下特征:
- name: 字符串类型
- value: 浮点数类型 (float64)
- count: 整数类型 (int32)
数据集分割
- 训练集:
- 大小: 100489994 字节
- 样本数: 84437
- 验证集:
- 大小: 5250017 字节
- 样本数: 4401
数据集大小
- 下载大小: 41603698 字节
- 数据集总大小: 105740011 字节
搜集汇总
数据集介绍

构建方式
在人工智能对话系统研究领域,数据集的构建质量直接关系到模型训练的效果。OpenAssistant-oasst1数据集通过众包方式收集,全球志愿者在开放平台上贡献了多轮对话内容。每条数据均包含消息ID、父消息ID、用户ID及时间戳等元信息,确保了对话线程的完整性与可追溯性。数据经过多轮审核,标注了语言种类、审核结果及毒性检测分数,部分数据还注明了是否为合成生成,从而构建了一个结构清晰、质量可控的大规模对话语料库。
特点
该数据集在对话生成研究领域展现出显著特色,其核心在于覆盖了多样化的对话角色与语言环境。数据条目不仅包含对话文本,还集成了丰富的元数据,如审核计数、排名及表情符号使用统计,并引入了毒性检测的多维度指标,包括侮辱、威胁与身份攻击等细分标签。这种多层次标注体系为研究对话安全性、情感分析及跨语言建模提供了细致的数据支撑,使得数据集兼具广度与深度。
使用方法
针对自然语言处理任务,该数据集可直接用于训练与评估对话生成模型。研究者可依据消息树ID与树状态字段重构完整对话流程,利用角色字段区分用户与助手发言,从而模拟真实交互场景。通过筛选语言代码或审核结果,能够定制特定语种或高质量子集。毒性检测分数可用于开发内容过滤模块,而标签序列则为细粒度属性分析提供了便利,支持模型在安全性、多样性与连贯性等多方面的优化。
背景与挑战
背景概述
在人工智能对话系统迅猛发展的背景下,OpenAssistant-oasst1数据集于2023年由LAION协会主导的OpenAssistant项目团队创建,旨在构建一个高质量、多语言、开源的人类反馈对话数据集。该数据集的核心研究问题聚焦于如何通过大规模、细粒度的人工标注,为大型语言模型的监督微调与人类偏好对齐提供可靠数据基础,从而推动开放、安全且符合人类价值观的对话智能体发展。其广泛覆盖的对话主题与多语言特性,对促进自然语言处理领域的可解释性研究与伦理对齐实践产生了深远影响。
当前挑战
该数据集致力于解决开放域对话生成中的人类偏好对齐与安全性挑战,具体包括如何确保生成内容的无害性、真实性及有用性。在构建过程中,面临多重挑战:首先,大规模众包标注需协调全球志愿者,维持标注标准的一致性极为困难;其次,对话数据的多语言覆盖与跨文化语境理解增加了数据质量控制的复杂度;此外,有效过滤毒性内容与识别合成数据,对构建安全可靠的对话语料库提出了持续的技术与管理要求。
常用场景
经典使用场景
在对话系统与自然语言处理领域,OpenAssistant-oasst1数据集以其多语言、多轮对话的丰富结构,成为训练和评估开放域对话模型的经典资源。该数据集通过收集真实用户与助手之间的互动记录,涵盖了广泛的话题和语言风格,为研究者提供了模拟人类对话动态的宝贵语料。其树状对话结构允许模型学习上下文连贯性和话题延续性,特别适用于生成式对话系统的开发与优化。
实际应用
在实际应用中,OpenAssistant-oasst1数据集被广泛用于开发智能客服、虚拟助手和教育工具。企业利用其训练模型以提供个性化、多语言的客户支持,提升服务效率与用户体验。教育机构则借助该数据集构建互动学习平台,模拟真实对话场景,辅助语言学习与技能培训。这些应用不仅降低了人工成本,还促进了人机交互技术的普及与创新。
衍生相关工作
基于OpenAssistant-oasst1数据集,衍生了一系列经典研究工作,如对话模型微调、多任务学习框架的构建。研究者利用其开发了先进的生成式预训练模型,例如在指令跟随与安全对话方面的改进算法。这些工作进一步推动了开源社区的发展,催生了多个高性能对话系统项目,为后续大规模语言模型的训练与评估提供了重要参考与基准。
以上内容由遇见数据集搜集并总结生成



