NickyNicky/oasst2_chatml
收藏Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NickyNicky/oasst2_chatml
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言的文本数据,主要特征为Text,数据类型为字符串。数据集分为一个训练集,包含13,848个样本,总大小为35,636,342字节。支持的语言包括英语、西班牙语、俄语、中文、德语、法语、泰语、加泰罗尼亚语、意大利语、日语、波兰语、世界语、巴斯克语、越南语、芬兰语、匈牙利语、阿拉伯语、荷兰语、丹麦语、土耳其语、韩语、希伯来语、印尼语、捷克语、孟加拉语和瑞典语。数据集的下载大小为19,635,797字节。
该数据集包含多种语言的文本数据,主要特征为Text,数据类型为字符串。数据集分为一个训练集,包含13,848个样本,总大小为35,636,342字节。支持的语言包括英语、西班牙语、俄语、中文、德语、法语、泰语、加泰罗尼亚语、意大利语、日语、波兰语、世界语、巴斯克语、越南语、芬兰语、匈牙利语、阿拉伯语、荷兰语、丹麦语、土耳其语、韩语、希伯来语、印尼语、捷克语、孟加拉语和瑞典语。数据集的下载大小为19,635,797字节。
提供机构:
NickyNicky
原始信息汇总
数据集概述
数据特征
- 名称: Text
- 数据类型: string
数据划分
- 名称: train
- 字节数: 35636342
- 样本数: 13848
数据大小
- 下载大小: 19635797
- 数据集大小: 35636342
配置
- 配置名称: default
- 数据文件:
- 划分: train
- 路径: data/train-*
支持的语言
- en, es, ru, zh, de, fr, th, ca, it, ja, pl, eo, eu, vi, fi, hu, ar, nl, da, tr, ko, he, id, cs, bn, sv
语言消息计数
- en: 64,513
- es: 28,199
- ru: 13,935
- zh: 8,615
- de: 6,145
- fr: 3,880
- pt-BR: 2,699
- th: 1,560
- ca: 1,283
- it: 943
- uk-UA: 845
- ja: 788
- pl: 435
- eo: 295
- eu: 274
- vi: 207
- fi: 138
- hu: 113
- ar: 80
- nl: 72
- da: 44
- tr: 37
- ko: 24
- he: 24
- id: 12
- cs: 12
- bn: 1
- sv: 1



