five

NickyNicky/oasst2_chatml

收藏
Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NickyNicky/oasst2_chatml
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种语言的文本数据,主要特征为Text,数据类型为字符串。数据集分为一个训练集,包含13,848个样本,总大小为35,636,342字节。支持的语言包括英语、西班牙语、俄语、中文、德语、法语、泰语、加泰罗尼亚语、意大利语、日语、波兰语、世界语、巴斯克语、越南语、芬兰语、匈牙利语、阿拉伯语、荷兰语、丹麦语、土耳其语、韩语、希伯来语、印尼语、捷克语、孟加拉语和瑞典语。数据集的下载大小为19,635,797字节。

该数据集包含多种语言的文本数据,主要特征为Text,数据类型为字符串。数据集分为一个训练集,包含13,848个样本,总大小为35,636,342字节。支持的语言包括英语、西班牙语、俄语、中文、德语、法语、泰语、加泰罗尼亚语、意大利语、日语、波兰语、世界语、巴斯克语、越南语、芬兰语、匈牙利语、阿拉伯语、荷兰语、丹麦语、土耳其语、韩语、希伯来语、印尼语、捷克语、孟加拉语和瑞典语。数据集的下载大小为19,635,797字节。
提供机构:
NickyNicky
原始信息汇总

数据集概述

数据特征

  • 名称: Text
  • 数据类型: string

数据划分

  • 名称: train
  • 字节数: 35636342
  • 样本数: 13848

数据大小

  • 下载大小: 19635797
  • 数据集大小: 35636342

配置

  • 配置名称: default
  • 数据文件:
    • 划分: train
    • 路径: data/train-*

支持的语言

  • en, es, ru, zh, de, fr, th, ca, it, ja, pl, eo, eu, vi, fi, hu, ar, nl, da, tr, ko, he, id, cs, bn, sv

语言消息计数

  • en: 64,513
  • es: 28,199
  • ru: 13,935
  • zh: 8,615
  • de: 6,145
  • fr: 3,880
  • pt-BR: 2,699
  • th: 1,560
  • ca: 1,283
  • it: 943
  • uk-UA: 845
  • ja: 788
  • pl: 435
  • eo: 295
  • eu: 274
  • vi: 207
  • fi: 138
  • hu: 113
  • ar: 80
  • nl: 72
  • da: 44
  • tr: 37
  • ko: 24
  • he: 24
  • id: 12
  • cs: 12
  • bn: 1
  • sv: 1
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作