allenai_WildChat-1M-Full-Qwen_Qwen2.5-14B-Instruct-v2

Hugging Face2024-12-22 更新2024-12-23 收录

下载链接：

https://huggingface.co/datasets/penfever/allenai_WildChat-1M-Full-Qwen_Qwen2.5-14B-Instruct-v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含详细的对话信息，包括对话哈希、模型、时间戳、对话内容、国家、语言、IP哈希、头部信息等。数据集还包含了对话的毒性评估（toxic）、OpenAI和Detoxify的审核信息，以及对话的状态和红线标记。数据集分为训练集，包含988704个样本，总大小为29.21GB。

创建时间：

2024-12-22

原始信息汇总

数据集概述

数据集信息

特征:
- conversation_hash: 字符串类型，表示对话的哈希值。
- model: 字符串类型，表示使用的模型。
- timestamp: 时间戳类型，表示时间戳，精确到微秒，时区为UTC。
- conversation: 列表类型，包含以下子特征：
  - content: 字符串类型，表示对话内容。
  - content_token_ids: 整数序列类型，表示对话内容的token ID。
  - country: 字符串类型，表示国家。
  - cumulative_logprob: 空类型，表示累积对数概率。
  - finish_reason: 字符串类型，表示对话结束的原因。
  - hashed_ip: 字符串类型，表示哈希后的IP地址。
  - header: 结构体类型，包含以下子特征：
    - accept-language: 字符串类型，表示接受的语言。
    - user-agent: 字符串类型，表示用户代理。
  - language: 字符串类型，表示语言。
  - redacted: 布尔类型，表示是否被编辑。
  - role: 字符串类型，表示角色。
  - state: 字符串类型，表示状态。
  - timestamp: 时间戳类型，表示时间戳，精确到微秒，时区为UTC。
  - toxic: 布尔类型，表示是否包含有害内容。
  - turn_identifier: 整数类型，表示对话轮次标识符。
- turn: 整数类型，表示对话轮次。
- language: 字符串类型，表示语言。
- openai_moderation: 列表类型，包含以下子特征：
  - categories: 结构体类型，包含以下子特征：
    - harassment: 布尔类型，表示是否包含骚扰内容。
    - harassment/threatening: 布尔类型，表示是否包含威胁性骚扰内容。
    - harassment_threatening: 布尔类型，表示是否包含威胁性骚扰内容。
    - hate: 布尔类型，表示是否包含仇恨内容。
    - hate/threatening: 布尔类型，表示是否包含威胁性仇恨内容。
    - hate_threatening: 布尔类型，表示是否包含威胁性仇恨内容。
    - self-harm: 布尔类型，表示是否包含自残内容。
    - self-harm/instructions: 布尔类型，表示是否包含自残指导内容。
    - self-harm/intent: 布尔类型，表示是否包含自残意图内容。
    - self_harm: 布尔类型，表示是否包含自残内容。
    - self_harm_instructions: 布尔类型，表示是否包含自残指导内容。
    - self_harm_intent: 布尔类型，表示是否包含自残意图内容。
    - sexual: 布尔类型，表示是否包含性内容。
    - sexual/minors: 布尔类型，表示是否包含涉及未成年人的性内容。
    - sexual_minors: 布尔类型，表示是否包含涉及未成年人的性内容。
    - violence: 布尔类型，表示是否包含暴力内容。
    - violence/graphic: 布尔类型，表示是否包含暴力图像内容。
    - violence_graphic: 布尔类型，表示是否包含暴力图像内容。
  - category_scores: 结构体类型，包含以下子特征：
    - harassment: 浮点数类型，表示骚扰内容的得分。
    - harassment/threatening: 浮点数类型，表示威胁性骚扰内容的得分。
    - harassment_threatening: 浮点数类型，表示威胁性骚扰内容的得分。
    - hate: 浮点数类型，表示仇恨内容的得分。
    - hate/threatening: 浮点数类型，表示威胁性仇恨内容的得分。
    - hate_threatening: 浮点数类型，表示威胁性仇恨内容的得分。
    - self-harm: 浮点数类型，表示自残内容的得分。
    - self-harm/instructions: 浮点数类型，表示自残指导内容的得分。
    - self-harm/intent: 浮点数类型，表示自残意图内容的得分。
    - self_harm: 浮点数类型，表示自残内容的得分。
    - self_harm_instructions: 浮点数类型，表示自残指导内容的得分。
    - self_harm_intent: 浮点数类型，表示自残意图内容的得分。
    - sexual: 浮点数类型，表示性内容的得分。
    - sexual/minors: 浮点数类型，表示涉及未成年人的性内容的得分。
    - sexual_minors: 浮点数类型，表示涉及未成年人的性内容的得分。
    - violence: 浮点数类型，表示暴力内容的得分。
    - violence/graphic: 浮点数类型，表示暴力图像内容的得分。
    - violence_graphic: 浮点数类型，表示暴力图像内容的得分。
  - flagged: 布尔类型，表示是否被标记。
- detoxify_moderation: 列表类型，包含以下子特征：
  - identity_attack: 浮点数类型，表示身份攻击的得分。
  - insult: 浮点数类型，表示侮辱的得分。
  - obscene: 浮点数类型，表示淫秽的得分。
  - severe_toxicity: 浮点数类型，表示严重有害的得分。
  - sexual_explicit: 浮点数类型，表示明确的性内容的得分。
  - threat: 浮点数类型，表示威胁的得分。
  - toxicity: 浮点数类型，表示有害的得分。
- toxic: 布尔类型，表示是否包含有害内容。
- redacted: 布尔类型，表示是否被编辑。
- state: 字符串类型，表示状态。
- country: 字符串类型，表示国家。
- hashed_ip: 字符串类型，表示哈希后的IP地址。
- header: 结构体类型，包含以下子特征：
  - accept-language: 字符串类型，表示接受的语言。
  - user-agent: 字符串类型，表示用户代理。

数据集划分

train:
- num_bytes: 29218648586.0 字节
- num_examples: 988704 条样本

数据集大小

download_size: 7423779964 字节
dataset_size: 29218648586.0 字节

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

搜集汇总

数据集介绍

构建方式

该数据集allenai_WildChat-1M-Full-Qwen_Qwen2.5-14B-Instruct-v2的构建基于大规模的对话数据，涵盖了多种语言和国家的用户交互。数据集的构建过程中，不仅收集了对话内容，还记录了对话的时间戳、用户的地理位置、以及对话的上下文信息。此外，数据集还包含了对话的毒性评估和内容审查信息，这些信息是通过OpenAI和Detoxify等工具进行自动标注的，确保了数据集的质量和多样性。

特点

该数据集的显著特点在于其丰富的元数据信息和多维度的标注。每条对话记录不仅包含对话内容本身，还附带了对话的时间、地点、用户设备信息等元数据。此外，数据集还提供了对话的毒性评估和内容审查结果，这些标注信息为研究对话系统的安全性和鲁棒性提供了宝贵的资源。数据集的多语言支持也使其在跨语言对话研究中具有广泛的应用潜力。

使用方法

该数据集适用于多种自然语言处理任务，如对话系统评估、对话生成模型的训练以及对话内容的安全性分析。研究者可以通过加载数据集中的对话内容和相关元数据，进行对话生成、对话理解以及对话安全性的研究。此外，数据集中的毒性评估和内容审查信息可用于训练和评估对话系统的安全过滤机制。数据集的结构化设计使得研究者能够方便地提取和分析特定类型的对话数据，满足不同的研究需求。

背景与挑战

背景概述

allenai_WildChat-1M-Full-Qwen_Qwen2.5-14B-Instruct-v2数据集由Allen Institute for AI主导开发，旨在为自然语言处理领域提供一个大规模、多样化的对话数据集。该数据集包含了超过98万条对话记录，涵盖了多种语言、国家和用户行为特征，旨在支持对话系统、语言模型和多语言处理等前沿研究。通过引入丰富的上下文信息和用户交互数据，该数据集为研究人员提供了一个全面的资源，以探索和优化对话系统的性能和鲁棒性。

当前挑战

该数据集在构建过程中面临多项挑战。首先，如何从海量对话数据中筛选出高质量、多样化的样本，确保数据集的代表性和实用性，是一个关键问题。其次，多语言和跨文化对话的处理要求模型具备强大的语言理解和适应能力，这对数据标注和模型训练提出了更高的要求。此外，数据集中涉及的隐私保护和内容审核问题，如如何有效处理敏感信息和潜在的恶意内容，也是构建过程中需要解决的重要挑战。

常用场景

经典使用场景

allenai_WildChat-1M-Full-Qwen_Qwen2.5-14B-Instruct-v2数据集的经典使用场景主要集中在自然语言处理领域，特别是对话系统的评估与优化。该数据集包含了大量真实的对话数据，涵盖多种语言和情境，为研究者提供了丰富的语料资源。通过分析这些对话数据，研究者可以深入探讨对话系统的语言理解能力、生成质量以及用户交互体验，从而推动对话系统在实际应用中的表现提升。

实际应用

在实际应用中，allenai_WildChat-1M-Full-Qwen_Qwen2.5-14B-Instruct-v2数据集为多种对话系统提供了强大的支持，包括智能客服、虚拟助手和社交机器人等。通过利用该数据集训练的模型，企业能够提供更加自然和高效的客户服务，增强用户满意度。同时，数据集中的内容安全评估功能也确保了这些系统在实际应用中的合规性和安全性，避免了潜在的法律和道德风险。

衍生相关工作

基于allenai_WildChat-1M-Full-Qwen_Qwen2.5-14B-Instruct-v2数据集，研究者们开展了多项相关工作，涵盖了对话系统的多个前沿领域。例如，有研究利用该数据集开发了多语言对话模型，显著提升了模型的跨语言理解能力。此外，还有研究基于数据集中的情感分析标签，提出了新的情感识别算法，进一步增强了对话系统的情感智能。这些衍生工作不仅丰富了对话系统的理论研究，也为实际应用提供了有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集