five

andersonbcdefg/chat-250k

收藏
Hugging Face2024-01-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/andersonbcdefg/chat-250k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含对话记录及其相关的审核信息。每个对话记录包含对话ID、模型名称、时间戳、对话内容、语言、是否被编辑、角色、是否含有毒性信息等字段。此外,数据集还包含OpenAI和Detoxify的审核结果,分别记录了不同类别的审核分数和是否被标记为有害信息。数据集分为训练集,包含250,000个样本,总大小为1,568,188,014字节。

该数据集包含对话记录及其相关的审核信息。每个对话记录包含对话ID、模型名称、时间戳、对话内容、语言、是否被编辑、角色、是否含有毒性信息等字段。此外,数据集还包含OpenAI和Detoxify的审核结果,分别记录了不同类别的审核分数和是否被标记为有害信息。数据集分为训练集,包含250,000个样本,总大小为1,568,188,014字节。
提供机构:
andersonbcdefg
原始信息汇总

数据集概述

特征信息

  • conversation_id: 字符串类型,对话的唯一标识符。
  • model: 字符串类型,使用的模型名称。
  • timestamp: 时间戳类型,记录的时间,采用UTC时区。
  • conversation: 列表类型,包含以下子特征:
    • content: 字符串类型,对话内容。
    • language: 字符串类型,对话使用的语言。
    • redacted: 布尔类型,是否被编辑。
    • role: 字符串类型,对话角色。
    • toxic: 布尔类型,是否含有有害内容。
  • turn: 整数类型,对话的轮次。
  • language: 字符串类型,对话的主要语言。
  • openai_moderation: 列表类型,包含以下子特征:
    • categories: 结构体类型,包含以下子特征:
      • harassment: 布尔类型,是否包含骚扰内容。
      • harassment/threatening: 布尔类型,是否包含威胁性骚扰内容。
      • hate: 布尔类型,是否包含仇恨内容。
      • hate/threatening: 布尔类型,是否包含威胁性仇恨内容。
      • self-harm: 布尔类型,是否包含自伤内容。
      • self-harm/instructions: 布尔类型,是否包含自伤指导内容。
      • self-harm/intent: 布尔类型,是否包含自伤意图内容。
      • sexual: 布尔类型,是否包含性内容。
      • sexual/minors: 布尔类型,是否包含未成年人性内容。
      • violence: 布尔类型,是否包含暴力内容。
      • violence/graphic: 布尔类型,是否包含暴力图像内容。
    • category_scores: 结构体类型,包含以下子特征:
      • harassment: 浮点数类型,骚扰内容的评分。
      • harassment/threatening: 浮点数类型,威胁性骚扰内容的评分。
      • hate: 浮点数类型,仇恨内容的评分。
      • hate/threatening: 浮点数类型,威胁性仇恨内容的评分。
      • self-harm: 浮点数类型,自伤内容的评分。
      • self-harm/instructions: 浮点数类型,自伤指导内容的评分。
      • self-harm/intent: 浮点数类型,自伤意图内容的评分。
      • sexual: 浮点数类型,性内容的评分。
      • sexual/minors: 浮点数类型,未成年人性内容的评分。
      • violence: 浮点数类型,暴力内容的评分。
      • violence/graphic: 浮点数类型,暴力图像内容的评分。
    • flagged: 布尔类型,是否被标记。
  • detoxify_moderation: 列表类型,包含以下子特征:
    • identity_attack: 浮点数类型,身份攻击内容的评分。
    • insult: 浮点数类型,侮辱内容的评分。
    • obscene: 浮点数类型,淫秽内容的评分。
    • severe_toxicity: 浮点数类型,严重有害内容的评分。
    • sexual_explicit: 浮点数类型,明确的性内容的评分。
    • threat: 浮点数类型,威胁内容的评分。
    • toxicity: 浮点数类型,有害内容的评分。
  • toxic: 布尔类型,是否含有有害内容。
  • redacted: 布尔类型,是否被编辑。

数据分割

  • train: 训练数据,包含250,000个样本,占用1,568,188,014字节。

数据集大小

  • 下载大小: 876,788,739字节。
  • 数据集大小: 1,568,188,014字节。

配置信息

  • config_name: default
    • data_files:
      • split: train
      • path: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作