five

WDC-Dialogue

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/thu-coai/eva
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为WDC-Dialogue,是迄今为止最大的中文对话数据集,包含了140亿个上下文回应对,这些数据来源于多个公共社交媒体平台。该数据集专为预训练EVA对话系统而设计。在数据整理过程中,我们采用了严格的方法来提升数据质量,去除了噪声内容、广告,并确保对话长度适中。该数据集适用于对话生成和评估任务。

The dataset named WDC-Dialogue is the largest Chinese dialogue dataset to date, containing 14 billion context-response pairs sourced from multiple public social media platforms. This dataset is specifically designed for pre-training the EVA dialogue system. During the data curation process, we adopted rigorous methods to improve data quality, removed noisy content and advertisements, and ensured appropriate dialogue lengths. This dataset is suitable for dialogue generation and evaluation tasks.
提供机构:
Various public social media platforms
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
WDC-Dialogue是用于训练EVA中文预训练对话模型的数据集,具体用于EVA1.0版本。EVA是目前最大的开源中文预训练对话模型,拥有28亿参数,主要擅长开放域闲聊。EVA2.0版本在从WDC-Dialogue中清洗出的更高质量对话数据上训练而成,性能明显优于1.0版本。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作