andersonbcdefg/chat-250k

Name: andersonbcdefg/chat-250k
Creator: andersonbcdefg
Published: 2024-01-17 23:24:30
License: 暂无描述

Hugging Face2024-01-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/andersonbcdefg/chat-250k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含对话记录及其相关的审核信息。每个对话记录包含对话ID、模型名称、时间戳、对话内容、语言、是否被编辑、角色、是否含有毒性信息等字段。此外，数据集还包含OpenAI和Detoxify的审核结果，分别记录了不同类别的审核分数和是否被标记为有害信息。数据集分为训练集，包含250,000个样本，总大小为1,568,188,014字节。

提供机构：

andersonbcdefg

原始信息汇总

数据集概述

特征信息

conversation_id: 字符串类型，对话的唯一标识符。
model: 字符串类型，使用的模型名称。
timestamp: 时间戳类型，记录的时间，采用UTC时区。
conversation: 列表类型，包含以下子特征：
- content: 字符串类型，对话内容。
- language: 字符串类型，对话使用的语言。
- redacted: 布尔类型，是否被编辑。
- role: 字符串类型，对话角色。
- toxic: 布尔类型，是否含有有害内容。
turn: 整数类型，对话的轮次。
language: 字符串类型，对话的主要语言。
openai_moderation: 列表类型，包含以下子特征：
- categories: 结构体类型，包含以下子特征：
  - harassment: 布尔类型，是否包含骚扰内容。
  - harassment/threatening: 布尔类型，是否包含威胁性骚扰内容。
  - hate: 布尔类型，是否包含仇恨内容。
  - hate/threatening: 布尔类型，是否包含威胁性仇恨内容。
  - self-harm: 布尔类型，是否包含自伤内容。
  - self-harm/instructions: 布尔类型，是否包含自伤指导内容。
  - self-harm/intent: 布尔类型，是否包含自伤意图内容。
  - sexual: 布尔类型，是否包含性内容。
  - sexual/minors: 布尔类型，是否包含未成年人性内容。
  - violence: 布尔类型，是否包含暴力内容。
  - violence/graphic: 布尔类型，是否包含暴力图像内容。
- category_scores: 结构体类型，包含以下子特征：
  - harassment: 浮点数类型，骚扰内容的评分。
  - harassment/threatening: 浮点数类型，威胁性骚扰内容的评分。
  - hate: 浮点数类型，仇恨内容的评分。
  - hate/threatening: 浮点数类型，威胁性仇恨内容的评分。
  - self-harm: 浮点数类型，自伤内容的评分。
  - self-harm/instructions: 浮点数类型，自伤指导内容的评分。
  - self-harm/intent: 浮点数类型，自伤意图内容的评分。
  - sexual: 浮点数类型，性内容的评分。
  - sexual/minors: 浮点数类型，未成年人性内容的评分。
  - violence: 浮点数类型，暴力内容的评分。
  - violence/graphic: 浮点数类型，暴力图像内容的评分。
- flagged: 布尔类型，是否被标记。
detoxify_moderation: 列表类型，包含以下子特征：
- identity_attack: 浮点数类型，身份攻击内容的评分。
- insult: 浮点数类型，侮辱内容的评分。
- obscene: 浮点数类型，淫秽内容的评分。
- severe_toxicity: 浮点数类型，严重有害内容的评分。
- sexual_explicit: 浮点数类型，明确的性内容的评分。
- threat: 浮点数类型，威胁内容的评分。
- toxicity: 浮点数类型，有害内容的评分。
toxic: 布尔类型，是否含有有害内容。
redacted: 布尔类型，是否被编辑。

数据分割

train: 训练数据，包含250,000个样本，占用1,568,188,014字节。

数据集大小

下载大小: 876,788,739字节。
数据集大小: 1,568,188,014字节。

配置信息

config_name: default
- data_files:
  - split: train
  - path: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集