nlp_chinese_corpus
收藏Opencsg2024-03-21 更新2024-06-22 收录
下载链接:
https://www.opencsg.com/datasets/MagicAI/nlp_chinese_corpus
下载链接
链接失效反馈官方服务:
资源简介:
含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个【话题】,总共有2.8万个各式话题,话题包罗万象。
从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。
除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签。
数据集划分:数据去重并分成三个部分。训练集:412万;验证集:6.8万;测试集a:6.8万;测试集b,不提供下载。
创建时间:
2024-03-21



