LCCC|中文对话数据集数据集|自然语言处理数据集
收藏数据集概述
数据集名称
CDial-GPT
数据集描述
CDial-GPT 提供了一个大规模的经过系统清洗的中文对话数据集,名为 Large-scale Cleaned Chinese Conversation corpus (LCCC)。该数据集包括两个部分:LCCC-base 和 LCCC-large。LCCC-base 数据集更为干净但规模较小,而 LCCC-large 数据集规模更大。
数据集构成
-
LCCC-base:
- 会话数: 3,354,382 (单轮) / 3,466,607 (多轮)
- 话语数: 6,708,554 (单轮) / 13,365,268 (多轮)
- 字符数: 68,559,727 (单轮) / 163,690,614 (多轮)
- 词汇量: 372,063 (单轮) / 666,931 (多轮)
- 平均每话语字数: 6.79 (单轮) / 8.32 (多轮)
- 平均每会话轮数: 2 (单轮) / 3.86 (多轮)
-
LCCC-large:
- 会话数: 7,273,804 (单轮) / 4,733,955 (多轮)
- 话语数: 14,547,608 (单轮) / 18,341,167 (多轮)
- 字符数: 162,301,556 (单轮) / 217,776,649 (多轮)
- 词汇量: 662,514 (单轮) / 690,027 (多轮)
- 平均每话语字数: 7.45 (单轮) / 8.14 (多轮)
- 平均每会话轮数: 2 (单轮) / 3.87 (多轮)
数据集来源
LCCC-base 数据集基于微博语料库构建,而 LCCC-large 数据集则在此基础上增加了多个其他对话数据集,包括 PTT Gossiping Corpus、Subtitle Corpus、Xiaohuangji Corpus、Tieba Corpus、Qingyun Corpus、Douban Conversation Corpus、E-commerical Conversation Corpus 和 Chinese Chat Corpus。
数据集质量保证
数据集的质量通过一个严格的数据清洗流程来保证,该流程基于一系列规则和经过人工标注对话对训练的过滤器。考虑的噪音类型包括脏话、敏感词、特殊符号、表情符号、语法错误和无上下文的对话。
数据集用途
该数据集用于训练和评估中文对话预训练模型,支持模型的预训练和微调。
相关模型
- GPT<sub>Novel</sub>: 预训练于中文小说数据集。
- GPT<sub>LCCC-base</sub> 和 GPT2<sub>LCCC-base</sub>: 在 GPT<sub>Novel</sub> 基础上,后训练于 LCCC-base 数据集。
- GPT<sub>LCCC-large</sub>: 在 GPT<sub>Novel</sub> 基础上,后训练于 LCCC-large 数据集。
评估
评估包括自动评估和人工评估,评估指标包括 PPL、BLEU、Distinct 等。人工评估涉及流畅性、相关性和多样性。

Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
LFW (Labeled Faces in the Wild)
Labeled Faces in the Wild,是一个人脸照片数据库,旨在研究无约束的人脸识别问题。该数据集包含从网络收集的超过 13,000 张人脸图像。每张脸都标有图中人物的名字。照片中的 1680 人在数据集中有两张或更多张不同的照片。这些人脸的唯一限制是它们是由 Viola-Jones 人脸检测器检测到的。更多细节可以在下面的技术报告中找到。
OpenDataLab 收录
FMA (Free Music Archive)
免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集
OpenDataLab 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录