kevinpro/WildChat-1M-GPT4-1Turn

Name: kevinpro/WildChat-1M-GPT4-1Turn
Creator: kevinpro
Published: 2024-05-06 13:50:47
License: 暂无描述

Hugging Face2024-05-06 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/kevinpro/WildChat-1M-GPT4-1Turn

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含对话的元数据和内容，特征包括对话哈希、模型、时间戳、对话内容、语言、国家、IP地址哈希、用户代理信息等。数据集还包含OpenAI和Detoxify的审核结果，涉及多种有害内容的分类和评分。数据集的分割为训练集，包含120,575个样本，总大小为1,366,650,286.3240173字节。

提供机构：

kevinpro

原始信息汇总

数据集概述

数据集特征

基本特征

conversation_hash: 数据类型 - string
model: 数据类型 - string
timestamp: 数据类型 - timestamp[us, tz=UTC]
turn: 数据类型 - int64
language: 数据类型 - string
openai_moderation: 数据类型 - list
- categories: 数据类型 - struct
  - 包含多个子特征，如harassment, hate, self-harm, sexual, violence等，数据类型均为bool
- category_scores: 数据类型 - struct
  - 包含多个子特征，如harassment, hate, self-harm, sexual, violence等，数据类型均为float64
- flagged: 数据类型 - bool
detoxify_moderation: 数据类型 - list
- 包含多个子特征，如identity_attack, insult, obscene, severe_toxicity, sexual_explicit, threat, toxicity等，数据类型均为float64
toxic: 数据类型 - bool
redacted: 数据类型 - bool
state: 数据类型 - string
country: 数据类型 - string
hashed_ip: 数据类型 - string
header: 数据类型 - struct
- accept-language: 数据类型 - string
- user-agent: 数据类型 - string

对话特征

conversation: 数据类型 - list
- content: 数据类型 - string
- country: 数据类型 - string
- hashed_ip: 数据类型 - string
- header: 数据类型 - struct
  - accept-language: 数据类型 - string
  - user-agent: 数据类型 - string
- language: 数据类型 - string
- redacted: 数据类型 - bool
- role: 数据类型 - string
- state: 数据类型 - string
- timestamp: 数据类型 - timestamp[us, tz=UTC]
- toxic: 数据类型 - bool
- turn_identifier: 数据类型 - int64

数据集划分

train:
- 数据大小: 1366650286.3240173 bytes
- 示例数量: 120575

数据集大小

下载大小: 291963771 bytes
数据集总大小: 1366650286.3240173 bytes

5,000+

优质数据集

54 个

任务类型

进入经典数据集