allenai_WildChat-1M-Full-google_gemma-2-9b-it

Hugging Face2024-12-22 更新2024-12-23 收录

下载链接：

https://huggingface.co/datasets/penfever/allenai_WildChat-1M-Full-google_gemma-2-9b-it

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含对话相关的详细信息，包括对话哈希、模型、时间戳、对话内容、国家、语言、IP地址哈希等。数据集还包含了对话的毒性评估（toxicity）、OpenAI和Detoxify的审核结果，以及对话的状态和语言信息。数据集分为训练集，包含990372个样本，总大小为22650917339字节。

创建时间：

2024-12-22

原始信息汇总

数据集概述

数据集信息

特征

conversation_hash: 字符串类型，表示对话的哈希值。
model: 字符串类型，表示使用的模型。
timestamp: 时间戳类型，表示时间戳，精确到微秒，时区为UTC。
conversation: 列表类型，包含以下子特征：
- content: 字符串类型，表示对话内容。
- content_token_ids: 整数序列类型，表示对话内容的token ID。
- country: 字符串类型，表示国家。
- cumulative_logprob: 空类型，表示累积的对数概率。
- finish_reason: 字符串类型，表示对话结束的原因。
- hashed_ip: 字符串类型，表示哈希后的IP地址。
- header: 结构体类型，包含以下子特征：
  - accept-language: 字符串类型，表示接受的语言。
  - user-agent: 字符串类型，表示用户代理。
- language: 字符串类型，表示语言。
- redacted: 布尔类型，表示是否被编辑。
- role: 字符串类型，表示角色。
- state: 字符串类型，表示状态。
- timestamp: 时间戳类型，表示时间戳，精确到微秒，时区为UTC。
- toxic: 布尔类型，表示是否含有毒性内容。
- turn_identifier: 整数类型，表示对话轮次标识符。
turn: 整数类型，表示对话轮次。
language: 字符串类型，表示语言。
openai_moderation: 列表类型，包含以下子特征：
- categories: 结构体类型，包含以下子特征：
  - harassment: 布尔类型，表示是否含有骚扰内容。
  - harassment/threatening: 布尔类型，表示是否含有威胁性骚扰内容。
  - harassment_threatening: 布尔类型，表示是否含有威胁性骚扰内容。
  - hate: 布尔类型，表示是否含有仇恨内容。
  - hate/threatening: 布尔类型，表示是否含有威胁性仇恨内容。
  - hate_threatening: 布尔类型，表示是否含有威胁性仇恨内容。
  - self-harm: 布尔类型，表示是否含有自残内容。
  - self-harm/instructions: 布尔类型，表示是否含有自残指导内容。
  - self-harm/intent: 布尔类型，表示是否含有自残意图内容。
  - self_harm: 布尔类型，表示是否含有自残内容。
  - self_harm_instructions: 布尔类型，表示是否含有自残指导内容。
  - self_harm_intent: 布尔类型，表示是否含有自残意图内容。
  - sexual: 布尔类型，表示是否含有性内容。
  - sexual/minors: 布尔类型，表示是否含有涉及未成年人的性内容。
  - sexual_minors: 布尔类型，表示是否含有涉及未成年人的性内容。
  - violence: 布尔类型，表示是否含有暴力内容。
  - violence/graphic: 布尔类型，表示是否含有暴力图像内容。
  - violence_graphic: 布尔类型，表示是否含有暴力图像内容。
- category_scores: 结构体类型，包含以下子特征：
  - harassment: 浮点数类型，表示骚扰内容的得分。
  - harassment/threatening: 浮点数类型，表示威胁性骚扰内容的得分。
  - harassment_threatening: 浮点数类型，表示威胁性骚扰内容的得分。
  - hate: 浮点数类型，表示仇恨内容的得分。
  - hate/threatening: 浮点数类型，表示威胁性仇恨内容的得分。
  - hate_threatening: 浮点数类型，表示威胁性仇恨内容的得分。
  - self-harm: 浮点数类型，表示自残内容的得分。
  - self-harm/instructions: 浮点数类型，表示自残指导内容的得分。
  - self-harm/intent: 浮点数类型，表示自残意图内容的得分。
  - self_harm: 浮点数类型，表示自残内容的得分。
  - self_harm_instructions: 浮点数类型，表示自残指导内容的得分。
  - self_harm_intent: 浮点数类型，表示自残意图内容的得分。
  - sexual: 浮点数类型，表示性内容的得分。
  - sexual/minors: 浮点数类型，表示涉及未成年人的性内容的得分。
  - sexual_minors: 浮点数类型，表示涉及未成年人的性内容的得分。
  - violence: 浮点数类型，表示暴力内容的得分。
  - violence/graphic: 浮点数类型，表示暴力图像内容的得分。
  - violence_graphic: 浮点数类型，表示暴力图像内容的得分。
- flagged: 布尔类型，表示是否被标记。
detoxify_moderation: 列表类型，包含以下子特征：
- identity_attack: 浮点数类型，表示身份攻击的得分。
- insult: 浮点数类型，表示侮辱的得分。
- obscene: 浮点数类型，表示淫秽的得分。
- severe_toxicity: 浮点数类型，表示严重毒性的得分。
- sexual_explicit: 浮点数类型，表示性显式内容的得分。
- threat: 浮点数类型，表示威胁的得分。
- toxicity: 浮点数类型，表示毒性的得分。
toxic: 布尔类型，表示是否含有毒性内容。
redacted: 布尔类型，表示是否被编辑。
state: 字符串类型，表示状态。
country: 字符串类型，表示国家。
hashed_ip: 字符串类型，表示哈希后的IP地址。
header: 结构体类型，包含以下子特征：
- accept-language: 字符串类型，表示接受的语言。
- user-agent: 字符串类型，表示用户代理。

数据集划分

train: 训练集，包含990372个样本，大小为22650917339.0字节。

数据集大小

下载大小: 6008660049字节
数据集大小: 22650917339.0字节

配置

config_name: default
- data_files:
  - split: train
    - path: data/train-*

搜集汇总

数据集介绍

构建方式

该数据集的构建基于大规模的对话数据，涵盖了多种语言和国家的对话内容。数据集通过收集用户与模型之间的交互对话，并记录了对话的详细信息，包括对话内容、时间戳、用户IP地址的哈希值、以及对话的语言和国家的信息。此外，数据集还包含了对话的毒性评估结果，通过OpenAI和Detoxify的模型对对话内容进行分类和评分，确保数据集的多样性和质量。

特点

该数据集的一个显著特点是其多样性和全面性。它不仅包含了多语言的对话数据，还详细记录了每次对话的上下文信息，如对话的时间、地点、用户设备信息等。此外，数据集还提供了对话的毒性评估，包括对骚扰、仇恨言论、自残、性内容和暴力等类别的分类和评分，这使得数据集在研究对话系统的行为和安全性方面具有重要价值。

使用方法

该数据集适用于多种自然语言处理任务，如对话系统评估、毒性检测模型的训练和验证、以及跨文化对话行为的研究。使用者可以通过加载数据集的训练部分，提取对话内容和相关的元数据，进行模型训练或分析。此外，数据集的毒性评估部分可以用于构建和测试毒性检测算法，帮助提升对话系统的安全性和用户体验。

背景与挑战

背景概述

allenai_WildChat-1M-Full-google_gemma-2-9b-it数据集由AllenAI机构主导创建，旨在为自然语言处理领域提供大规模的多轮对话数据。该数据集包含了超过99万条对话记录，涵盖了多种语言、国家和用户行为特征。其核心研究问题在于如何通过大规模对话数据提升对话系统的性能，尤其是在多语言、多文化背景下的对话理解和生成能力。该数据集的发布对推动对话系统在实际应用中的表现具有重要意义，尤其是在跨文化交流和多语言支持方面。

当前挑战

该数据集在构建过程中面临多项挑战。首先，多语言和多文化背景下的对话数据收集和标注需要克服语言多样性和文化差异带来的复杂性。其次，对话数据的隐私保护和安全性也是一个重要问题，数据集中包含了用户IP地址的哈希值和其他敏感信息，如何在保证数据可用性的同时确保用户隐私是一个技术难题。此外，对话数据的多样性和质量控制也是一大挑战，确保数据集中的对话内容既丰富又具有代表性，能够有效支持模型的训练和评估。

常用场景

经典使用场景

allenai_WildChat-1M-Full-google_gemma-2-9b-it数据集以其丰富的对话内容和多维度的标注信息，成为自然语言处理领域中对话系统评估与优化的经典资源。该数据集不仅包含了对话的文本内容，还涵盖了对话的时间戳、语言、国家、用户代理等元数据，使得研究者能够深入分析不同语境下的对话行为。通过该数据集，研究者可以构建和验证对话模型，特别是在多语言、多文化背景下的对话生成与理解任务中，展现出其独特的应用价值。

衍生相关工作

基于allenai_WildChat-1M-Full-google_gemma-2-9b-it数据集，研究者们开展了多项经典工作，涵盖了对话生成、对话理解、多语言适应性以及对话系统安全性等多个方向。例如，有研究利用该数据集训练多语言对话模型，显著提升了模型在不同语言环境下的表现；还有研究通过分析数据集中的毒性标注，提出了新的对话系统安全性评估方法。这些衍生工作不仅丰富了对话系统的研究领域，也为实际应用提供了有力的技术支持。

数据集最近研究