five

Pchatbot

收藏
arXiv2021-05-31 更新2024-06-21 收录
下载链接:
https://github.com/qhjqhj00/Pchatbot
下载链接
链接失效反馈
官方服务:
资源简介:
Pchatbot是一个大规模的中文对话数据集,包含两个子集PchatbotW和PchatbotL,分别从微博和司法论坛收集。数据集经过精细处理,包括匿名化、去重、分词和过滤,以适应对话系统的需求。Pchatbot的数据量远超现有中文数据集,有助于数据驱动模型的优化。数据集提供匿名用户ID和时间戳,支持个性化对话模型的开发,能够从用户对话历史中直接学习隐含的用户个性。该数据集适用于单轮对话、多参考对话和个性化对话的研究,旨在解决对话系统中的个性一致性问题。

Pchatbot is a large-scale Chinese dialogue dataset consisting of two subsets, PchatbotW and PchatbotL, which are collected from Weibo and judicial forums respectively. The dataset has undergone meticulous processing, including anonymization, deduplication, word segmentation, and filtering, to meet the requirements of dialogue systems. The scale of Pchatbot far exceeds that of existing Chinese datasets, which facilitates the optimization of data-driven models. The dataset provides anonymized user IDs and timestamps, supporting the development of personalized dialogue models and enabling direct learning of implicit user personalities from user conversation histories. This dataset is applicable to research on single-turn dialogue, multi-reference dialogue, and personalized dialogue, aiming to address the issue of personality consistency in dialogue systems.
提供机构:
中国人民大学高瓴人工智能学院
创建时间:
2020-09-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Pchatbot是一个大规模个性化对话数据集,包含来自微博和司法论坛的两个子集,支持通过用户ID和时间戳构建用户档案,已被多项研究采用并在知名会议上发表。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作