five

kevinpro/WildChat-1M-GPT4-1Turn

收藏
Hugging Face2024-05-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/kevinpro/WildChat-1M-GPT4-1Turn
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含对话的元数据和内容,特征包括对话哈希、模型、时间戳、对话内容、语言、国家、IP地址哈希、用户代理信息等。数据集还包含OpenAI和Detoxify的审核结果,涉及多种有害内容的分类和评分。数据集的分割为训练集,包含120,575个样本,总大小为1,366,650,286.3240173字节。

该数据集包含对话的元数据和内容,特征包括对话哈希、模型、时间戳、对话内容、语言、国家、IP地址哈希、用户代理信息等。数据集还包含OpenAI和Detoxify的审核结果,涉及多种有害内容的分类和评分。数据集的分割为训练集,包含120,575个样本,总大小为1,366,650,286.3240173字节。
提供机构:
kevinpro
原始信息汇总

数据集概述

数据集特征

基本特征

  • conversation_hash: 数据类型 - string
  • model: 数据类型 - string
  • timestamp: 数据类型 - timestamp[us, tz=UTC]
  • turn: 数据类型 - int64
  • language: 数据类型 - string
  • openai_moderation: 数据类型 - list
    • categories: 数据类型 - struct
      • 包含多个子特征,如harassment, hate, self-harm, sexual, violence等,数据类型均为bool
    • category_scores: 数据类型 - struct
      • 包含多个子特征,如harassment, hate, self-harm, sexual, violence等,数据类型均为float64
    • flagged: 数据类型 - bool
  • detoxify_moderation: 数据类型 - list
    • 包含多个子特征,如identity_attack, insult, obscene, severe_toxicity, sexual_explicit, threat, toxicity等,数据类型均为float64
  • toxic: 数据类型 - bool
  • redacted: 数据类型 - bool
  • state: 数据类型 - string
  • country: 数据类型 - string
  • hashed_ip: 数据类型 - string
  • header: 数据类型 - struct
    • accept-language: 数据类型 - string
    • user-agent: 数据类型 - string

对话特征

  • conversation: 数据类型 - list
    • content: 数据类型 - string
    • country: 数据类型 - string
    • hashed_ip: 数据类型 - string
    • header: 数据类型 - struct
      • accept-language: 数据类型 - string
      • user-agent: 数据类型 - string
    • language: 数据类型 - string
    • redacted: 数据类型 - bool
    • role: 数据类型 - string
    • state: 数据类型 - string
    • timestamp: 数据类型 - timestamp[us, tz=UTC]
    • toxic: 数据类型 - bool
    • turn_identifier: 数据类型 - int64

数据集划分

  • train:
    • 数据大小: 1366650286.3240173 bytes
    • 示例数量: 120575

数据集大小

  • 下载大小: 291963771 bytes
  • 数据集总大小: 1366650286.3240173 bytes
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作