dbuos/oasst_top1_2023-08-25_languages
收藏Hugging Face2023-12-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dbuos/oasst_top1_2023-08-25_languages
下载链接
链接失效反馈官方服务:
资源简介:
OpenAssistant TOP-1 Conversation Threads数据集是从open-assistant.io数据库中导出的最佳对话线程,采用Guanacco风格导出。数据集包含12,947个样本,格式为jsonl文件,使用chatml格式的对话。数据集中包含一个指示使用语言的列。数据集的特征包括文本和语言,数据类型均为字符串。数据集的大小类别为10K<n<100K,任务类别为对话。
OpenAssistant TOP-1 Conversation Threads数据集是从open-assistant.io数据库中导出的最佳对话线程,采用Guanacco风格导出。数据集包含12,947个样本,格式为jsonl文件,使用chatml格式的对话。数据集中包含一个指示使用语言的列。数据集的特征包括文本和语言,数据类型均为字符串。数据集的大小类别为10K<n<100K,任务类别为对话。
提供机构:
dbuos
原始信息汇总
OpenAssistant TOP-1 Conversation Threads 数据集概述
数据集基本信息
- 许可证: Apache-2.0
- 数据量级: 10K < n < 100K
- 任务类别: 对话
数据集结构
特征
- text: 数据类型为字符串
- lang: 数据类型为字符串
分割
- train: 包含12,947个样本,总字节数为23,211,220
文件信息
- 下载大小: 13,220,375字节
- 数据集大小: 23,211,220字节
配置
- default: 数据文件路径为
data/train-*
数据集描述
- 导出日期: 2023年8月25日
- 文件格式: jsonl
- 对话格式: chatml
- 样本数量: 训练集包含12,947个样本
- 语言标记: 包含一列指示所使用的语言



