LCCC 大型清洁汉语会话语料库
收藏超神经2024-05-30 更新2024-06-29 收录
下载链接:
https://hyper.ai/cn/datasets/32198
下载链接
链接失效反馈官方服务:
资源简介:
LCCC(全称为 Large-scale Cleaned Chinese Conversation corpus)由清华大学和三星中国研究院于 2020 年发布。
LCCC(全称为:大规模清洗中文对话语料库(Large-scale Cleaned Chinese Conversation corpus))由清华大学与三星中国研究院于2020年发布。
创建时间:
2024-05-30
搜集汇总
数据集介绍

背景与挑战
背景概述
LCCC大型清洁汉语会话语料库由清华大学和三星中国研究院于2020年发布,包含LCCC-base(680万个对话)和LCCC-large(1200万个对话)两部分。该数据集通过严格的数据过滤流程确保对话质量,旨在推动短文本对话建模的研究。
以上内容由遇见数据集搜集并总结生成



