kevinpro/WildChat-1M-GPT4-1Turn
收藏Hugging Face2024-05-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/kevinpro/WildChat-1M-GPT4-1Turn
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含对话的元数据和内容,特征包括对话哈希、模型、时间戳、对话内容、语言、国家、IP地址哈希、用户代理信息等。数据集还包含OpenAI和Detoxify的审核结果,涉及多种有害内容的分类和评分。数据集的分割为训练集,包含120,575个样本,总大小为1,366,650,286.3240173字节。
该数据集包含对话的元数据和内容,特征包括对话哈希、模型、时间戳、对话内容、语言、国家、IP地址哈希、用户代理信息等。数据集还包含OpenAI和Detoxify的审核结果,涉及多种有害内容的分类和评分。数据集的分割为训练集,包含120,575个样本,总大小为1,366,650,286.3240173字节。
提供机构:
kevinpro
原始信息汇总
数据集概述
数据集特征
基本特征
- conversation_hash: 数据类型 - string
- model: 数据类型 - string
- timestamp: 数据类型 - timestamp[us, tz=UTC]
- turn: 数据类型 - int64
- language: 数据类型 - string
- openai_moderation: 数据类型 - list
- categories: 数据类型 - struct
- 包含多个子特征,如
harassment,hate,self-harm,sexual,violence等,数据类型均为bool
- 包含多个子特征,如
- category_scores: 数据类型 - struct
- 包含多个子特征,如
harassment,hate,self-harm,sexual,violence等,数据类型均为float64
- 包含多个子特征,如
- flagged: 数据类型 - bool
- categories: 数据类型 - struct
- detoxify_moderation: 数据类型 - list
- 包含多个子特征,如
identity_attack,insult,obscene,severe_toxicity,sexual_explicit,threat,toxicity等,数据类型均为float64
- 包含多个子特征,如
- toxic: 数据类型 - bool
- redacted: 数据类型 - bool
- state: 数据类型 - string
- country: 数据类型 - string
- hashed_ip: 数据类型 - string
- header: 数据类型 - struct
- accept-language: 数据类型 - string
- user-agent: 数据类型 - string
对话特征
- conversation: 数据类型 - list
- content: 数据类型 - string
- country: 数据类型 - string
- hashed_ip: 数据类型 - string
- header: 数据类型 - struct
- accept-language: 数据类型 - string
- user-agent: 数据类型 - string
- language: 数据类型 - string
- redacted: 数据类型 - bool
- role: 数据类型 - string
- state: 数据类型 - string
- timestamp: 数据类型 - timestamp[us, tz=UTC]
- toxic: 数据类型 - bool
- turn_identifier: 数据类型 - int64
数据集划分
- train:
- 数据大小: 1366650286.3240173 bytes
- 示例数量: 120575
数据集大小
- 下载大小: 291963771 bytes
- 数据集总大小: 1366650286.3240173 bytes



