larryvrh/belle_filtered_2.8M_CN

Name: larryvrh/belle_filtered_2.8M_CN
Creator: larryvrh
Published: 2023-09-23 05:28:23
License: 暂无描述

Hugging Face2023-09-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/larryvrh/belle_filtered_2.8M_CN

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过启发式方法过滤后的[BelleGroup/train_3.5M_CN]数据集，移除了语料中明显的错误和低质量内容。数据集包含对话形式的数据，每段对话都有一个唯一的id和类别。数据集的特征包括conversations（对话内容）、id（数据id）和category（数据类别）。数据集主要用于文本生成和对话任务，语言为中文。数据集的规模在1M到10M之间，包含2802515个训练样本。

提供机构：

larryvrh

原始信息汇总

数据集概述

数据集信息

特征字段:
- conversations: 包含对话内容，每个对话包含以下字段:
  - from: 对话来源，数据类型为字符串
  - value: 对话内容，数据类型为字符串
- id: 数据标识，数据类型为字符串
- category: 数据类别，数据类型为字符串
数据分割:
- train: 训练集，包含2802515个样本，总大小为4151854934字节
下载大小: 2513439396字节
数据集大小: 4151854934字节
配置:
- default: 默认配置，包含训练集数据文件路径为data/train-*
许可证: GPL-3.0
任务类别:
- 文本生成
- 对话系统
语言: 中文
数据集规模: 1M<n<10M

数据构成

Category	Count
close qa	112,570
classification	125,623
extract	6,400
open qa	385,306
harmless	45,968
role playing	465,782
rewrite	28,146
code	180,825
translation	29,923
summarization	99,017
math	106,202
generation	1,023,643
brainstorming	193,110

5,000+

优质数据集

54 个

任务类型

进入经典数据集