andersonbcdefg/chat-250k
收藏Hugging Face2024-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/andersonbcdefg/chat-250k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含对话记录及其相关的审核信息。每个对话记录包含对话ID、模型名称、时间戳、对话内容、语言、是否被编辑、角色、是否含有毒性信息等字段。此外,数据集还包含OpenAI和Detoxify的审核结果,分别记录了不同类别的审核分数和是否被标记为有害信息。数据集分为训练集,包含250,000个样本,总大小为1,568,188,014字节。
该数据集包含对话记录及其相关的审核信息。每个对话记录包含对话ID、模型名称、时间戳、对话内容、语言、是否被编辑、角色、是否含有毒性信息等字段。此外,数据集还包含OpenAI和Detoxify的审核结果,分别记录了不同类别的审核分数和是否被标记为有害信息。数据集分为训练集,包含250,000个样本,总大小为1,568,188,014字节。
提供机构:
andersonbcdefg
原始信息汇总
数据集概述
特征信息
- conversation_id: 字符串类型,对话的唯一标识符。
- model: 字符串类型,使用的模型名称。
- timestamp: 时间戳类型,记录的时间,采用UTC时区。
- conversation: 列表类型,包含以下子特征:
- content: 字符串类型,对话内容。
- language: 字符串类型,对话使用的语言。
- redacted: 布尔类型,是否被编辑。
- role: 字符串类型,对话角色。
- toxic: 布尔类型,是否含有有害内容。
- turn: 整数类型,对话的轮次。
- language: 字符串类型,对话的主要语言。
- openai_moderation: 列表类型,包含以下子特征:
- categories: 结构体类型,包含以下子特征:
- harassment: 布尔类型,是否包含骚扰内容。
- harassment/threatening: 布尔类型,是否包含威胁性骚扰内容。
- hate: 布尔类型,是否包含仇恨内容。
- hate/threatening: 布尔类型,是否包含威胁性仇恨内容。
- self-harm: 布尔类型,是否包含自伤内容。
- self-harm/instructions: 布尔类型,是否包含自伤指导内容。
- self-harm/intent: 布尔类型,是否包含自伤意图内容。
- sexual: 布尔类型,是否包含性内容。
- sexual/minors: 布尔类型,是否包含未成年人性内容。
- violence: 布尔类型,是否包含暴力内容。
- violence/graphic: 布尔类型,是否包含暴力图像内容。
- category_scores: 结构体类型,包含以下子特征:
- harassment: 浮点数类型,骚扰内容的评分。
- harassment/threatening: 浮点数类型,威胁性骚扰内容的评分。
- hate: 浮点数类型,仇恨内容的评分。
- hate/threatening: 浮点数类型,威胁性仇恨内容的评分。
- self-harm: 浮点数类型,自伤内容的评分。
- self-harm/instructions: 浮点数类型,自伤指导内容的评分。
- self-harm/intent: 浮点数类型,自伤意图内容的评分。
- sexual: 浮点数类型,性内容的评分。
- sexual/minors: 浮点数类型,未成年人性内容的评分。
- violence: 浮点数类型,暴力内容的评分。
- violence/graphic: 浮点数类型,暴力图像内容的评分。
- flagged: 布尔类型,是否被标记。
- categories: 结构体类型,包含以下子特征:
- detoxify_moderation: 列表类型,包含以下子特征:
- identity_attack: 浮点数类型,身份攻击内容的评分。
- insult: 浮点数类型,侮辱内容的评分。
- obscene: 浮点数类型,淫秽内容的评分。
- severe_toxicity: 浮点数类型,严重有害内容的评分。
- sexual_explicit: 浮点数类型,明确的性内容的评分。
- threat: 浮点数类型,威胁内容的评分。
- toxicity: 浮点数类型,有害内容的评分。
- toxic: 布尔类型,是否含有有害内容。
- redacted: 布尔类型,是否被编辑。
数据分割
- train: 训练数据,包含250,000个样本,占用1,568,188,014字节。
数据集大小
- 下载大小: 876,788,739字节。
- 数据集大小: 1,568,188,014字节。
配置信息
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



