WDC-Dialogue

Name: WDC-Dialogue
Creator: Various public social media platforms
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://github.com/thu-coai/eva

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为WDC-Dialogue，是迄今为止最大的中文对话数据集，包含了140亿个上下文回应对，这些数据来源于多个公共社交媒体平台。该数据集专为预训练EVA对话系统而设计。在数据整理过程中，我们采用了严格的方法来提升数据质量，去除了噪声内容、广告，并确保对话长度适中。该数据集适用于对话生成和评估任务。

The dataset named WDC-Dialogue is the largest Chinese dialogue dataset to date, containing 14 billion context-response pairs sourced from multiple public social media platforms. This dataset is specifically designed for pre-training the EVA dialogue system. During the data curation process, we adopted rigorous methods to improve data quality, removed noisy content and advertisements, and ensured appropriate dialogue lengths. This dataset is suitable for dialogue generation and evaluation tasks.

提供机构：

Various public social media platforms

搜集汇总

数据集介绍

背景与挑战

背景概述

WDC-Dialogue是用于训练EVA中文预训练对话模型的数据集，具体用于EVA1.0版本。EVA是目前最大的开源中文预训练对话模型，拥有28亿参数，主要擅长开放域闲聊。EVA2.0版本在从WDC-Dialogue中清洗出的更高质量对话数据上训练而成，性能明显优于1.0版本。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集