five

海天瑞声-超大规模中文多领域高质量多轮对话语料库

收藏
魔搭社区2026-05-16 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/haitianruisheng/ChineseMulti-TurnConversationDataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。

This is a natural dialogue dataset tailored to Chinese expression conventions, with approximately 10 million dialogue turns and hundreds of millions of tokens. It includes both formal and informal dialogues, adopting colloquial and natural conversational expressions. The dataset covers diverse scenarios such as work, daily life and campus, as well as multiple domains including finance, education, entertainment, sports, automotive and technology. In terms of dataset construction, DOTS-NLP-216 adopts two data collection methods: real-world dialogue acquisition and simulated dialogues that highly replicate real scenarios, which balances the representativeness, diversity and sample scale of the dataset distribution.
提供机构:
maas
创建时间:
2024-06-06
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个超大规模的中文多轮对话语料库,覆盖多个领域,旨在提供高质量的对话数据。它适用于自然语言处理任务,如对话系统训练,但详情页面未提供具体数据样本或领域细分信息。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务