five

larryvrh/belle_filtered_2.8M_CN

收藏
Hugging Face2023-09-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/larryvrh/belle_filtered_2.8M_CN
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过启发式方法过滤后的[BelleGroup/train_3.5M_CN]数据集,移除了语料中明显的错误和低质量内容。数据集包含对话形式的数据,每段对话都有一个唯一的id和类别。数据集的特征包括conversations(对话内容)、id(数据id)和category(数据类别)。数据集主要用于文本生成和对话任务,语言为中文。数据集的规模在1M到10M之间,包含2802515个训练样本。
提供机构:
larryvrh
原始信息汇总

数据集概述

数据集信息

  • 特征字段:

    • conversations: 包含对话内容,每个对话包含以下字段:
      • from: 对话来源,数据类型为字符串
      • value: 对话内容,数据类型为字符串
    • id: 数据标识,数据类型为字符串
    • category: 数据类别,数据类型为字符串
  • 数据分割:

    • train: 训练集,包含2802515个样本,总大小为4151854934字节
  • 下载大小: 2513439396字节

  • 数据集大小: 4151854934字节

  • 配置:

    • default: 默认配置,包含训练集数据文件路径为data/train-*
  • 许可证: GPL-3.0

  • 任务类别:

    • 文本生成
    • 对话系统
  • 语言: 中文

  • 数据集规模: 1M<n<10M

数据构成

Category Count
close qa 112,570
classification 125,623
extract 6,400
open qa 385,306
harmless 45,968
role playing 465,782
rewrite 28,146
code 180,825
translation 29,923
summarization 99,017
math 106,202
generation 1,023,643
brainstorming 193,110
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作