Discord-Dialogues

Hugging Face2025-08-23 更新2025-08-24 收录

下载链接：

https://huggingface.co/datasets/mooaoeu/Discord-Dialogues

下载链接

链接失效反馈

官方服务：

资源简介：

Discord-Dialogues是一个大规模的数据集，包含从2025年春末到初秋期间匿名化的Discord对话，以ChatML友好的格式用于训练和评估真实的对话AI模型。该数据集包含730万次交流，分布在1600万轮对话中，超过1.39亿个单词。它包含混合的单轮和多轮交流，仅限人类对话（无机器人），经过过滤以去除ToS违规和有害内容，移除了链接、嵌入和命令等。数据集经过清理和去重，主要包含英语对话，但也包含其他语言。

创建时间：

2025-08-22

原始信息汇总

Discord-Dialogues 数据集概述

数据集基本信息

名称：Discord-Dialogues
来源：Discord平台匿名化对话数据（2025年春末至秋初）
数据规模：730万次交换，1688万轮对话，1.399亿单词
语言：主要为英语，包含少量其他语言
许可证：Apache 2.0
数据格式：ChatML友好格式

主要特征

包含单轮和多轮对话交换
纯人类对话（无机器人参与）
经过服务条款和有害内容过滤
移除链接、嵌入内容和命令
清除交易帖子、代码块和LFG内容
仅保留双作者对话链
合并同一作者的自我回复为单条消息
经过清洗和去重处理

主要用途

对话模型微调
相关性/奖励模型训练
对话生成研究

数据处理流程

SQL过滤：使用Postgres正则表达式过滤PII、机器人模式、链接等
智能清理：文本标准化、俚语替换、长度重采样和结构验证
去重处理：通过哈希消息链去重，保留最长最终助手消息
结尾修复：清理<|im_end|>标记前的无关字符
ToS风险过滤：移除或编辑不安全内容类别

统计信息

样本数量：7,303,464条
总对话轮数：16,881,010轮
助手对话轮数：9,016,287轮
平均长度：32.79个token
中位数长度：28个token
总token数：239,458,213个
总字符数：1,242,238,794个

使用说明

数据集经过过滤后保留了原始数据的大约7.5%，建议根据具体训练目标进行进一步筛选。除原始文本外，数据集还包含字符数、单词数、token数和对话轮数等辅助列。

相关资源

mookiezi/Discord-Micae-8B-Preview（实验性大模型）
mookiezi/Discord-Micae-Hermes-3-3B（稳定小模型）
mookiezi/Discord-OpenMicae数据集
NousResearch/Hermes-3-Llama-3.1-8B分词器

搜集汇总

数据集介绍

构建方式

Discord-Dialogues数据集源自2025年春夏之际的真实Discord平台对话记录，通过多阶段智能过滤流程构建。采用定制化SQL过滤器清除个人身份信息、机器人指令及链接嵌入内容，经由智能清理模块进行文本标准化与俚语替换，并利用哈希去重技术确保对话链唯一性。最后通过服务条款风险过滤器移除有害内容，形成730万条高质量对话交换。

特点

该数据集涵盖1600万轮对话回合与近1.4亿词汇量，呈现混合单轮与多轮对话结构。严格限定双作者对话链，合并同作者自我回复，剔除代码块、交易帖等噪声数据。所有对话均经过匿名化处理，主要保留英语对话同时兼容其他语言变体，其对话长度中位数为28个标记符，呈现右偏态分布特征。

使用方法

本数据集适配ChatML格式，专为对话生成研究与模型优化设计。适用于微调对话系统、训练相关性评估模型与奖励模型，其多轮对话结构可有效提升模型上下文理解能力。使用者可通过分词器统计特征进行数据采样加权，建议根据具体训练目标进一步筛选高信号数据以提升模型性能。

背景与挑战

背景概述

Discord-Dialogues数据集由mookiezi团队于2025年构建，旨在为对话式人工智能模型提供大规模、高质量的匿名对话语料。该数据集采集自Discord平台2025年春夏时段的真实用户对话，经过多阶段清洗过滤后形成包含730万次对话交换、1680万轮次的结构化语料。其核心价值在于捕捉了自然场景下的多轮对话模式，为对话生成、奖励模型训练等研究方向提供了接近真实人类交流特性的数据支撑，显著推进了开放域对话系统的实证研究进程。

当前挑战

该数据集主要应对开放域对话系统中自然语言理解与生成的复杂性挑战，特别是多轮对话的连贯性维护和上下文感知问题。构建过程中面临四大技术挑战：一是原始数据中存在大量噪声（如代码块、交易帖子和命令文本），需通过智能清理管道进行语义保留式过滤；二是隐私保护要求采用模糊匹配和正则表达式技术识别并脱敏个人信息；三是对话结构规范化需处理自回复合并和终止符标准化问题；四是内容安全过滤需精准识别暴力、极端主义等违规内容而不损害正常对话的语义完整性。

常用场景

经典使用场景

在自然语言处理领域，Discord-Dialogues数据集为多轮对话系统研究提供了丰富的真实语料。该数据集通过ChatML格式呈现的730万条对话交换，能够有效支撑对话状态跟踪、上下文理解与生成连贯性等核心任务的模型训练。其混合单轮与多轮对话的结构特性，特别适合用于构建具备长上下文保持能力的对话代理。

衍生相关工作

基于该数据集衍生的经典工作包括Discord-Micae系列对话模型，这些模型展示了在特定领域对话优化方面的突破性进展。相关研究进一步推动了多模态对话理解、跨平台对话迁移学习等方向的发展，为构建更具适应性和泛化能力的对话系统奠定了重要基础。

数据集最近研究