larryvrh/belle_filtered_2.8M_CN
收藏Hugging Face2023-09-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/larryvrh/belle_filtered_2.8M_CN
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过启发式方法过滤后的[BelleGroup/train_3.5M_CN]数据集,移除了语料中明显的错误和低质量内容。数据集包含对话形式的数据,每段对话都有一个唯一的id和类别。数据集的特征包括conversations(对话内容)、id(数据id)和category(数据类别)。数据集主要用于文本生成和对话任务,语言为中文。数据集的规模在1M到10M之间,包含2802515个训练样本。
提供机构:
larryvrh
原始信息汇总
数据集概述
数据集信息
-
特征字段:
conversations: 包含对话内容,每个对话包含以下字段:from: 对话来源,数据类型为字符串value: 对话内容,数据类型为字符串
id: 数据标识,数据类型为字符串category: 数据类别,数据类型为字符串
-
数据分割:
train: 训练集,包含2802515个样本,总大小为4151854934字节
-
下载大小: 2513439396字节
-
数据集大小: 4151854934字节
-
配置:
default: 默认配置,包含训练集数据文件路径为data/train-*
-
许可证: GPL-3.0
-
任务类别:
- 文本生成
- 对话系统
-
语言: 中文
-
数据集规模: 1M<n<10M
数据构成
| Category | Count |
|---|---|
| close qa | 112,570 |
| classification | 125,623 |
| extract | 6,400 |
| open qa | 385,306 |
| harmless | 45,968 |
| role playing | 465,782 |
| rewrite | 28,146 |
| code | 180,825 |
| translation | 29,923 |
| summarization | 99,017 |
| math | 106,202 |
| generation | 1,023,643 |
| brainstorming | 193,110 |



