five

dbuos/oasst_top1_2023-08-25_languages

收藏
Hugging Face2023-12-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dbuos/oasst_top1_2023-08-25_languages
下载链接
链接失效反馈
官方服务:
资源简介:
OpenAssistant TOP-1 Conversation Threads数据集是从open-assistant.io数据库中导出的最佳对话线程,采用Guanacco风格导出。数据集包含12,947个样本,格式为jsonl文件,使用chatml格式的对话。数据集中包含一个指示使用语言的列。数据集的特征包括文本和语言,数据类型均为字符串。数据集的大小类别为10K<n<100K,任务类别为对话。

OpenAssistant TOP-1 Conversation Threads数据集是从open-assistant.io数据库中导出的最佳对话线程,采用Guanacco风格导出。数据集包含12,947个样本,格式为jsonl文件,使用chatml格式的对话。数据集中包含一个指示使用语言的列。数据集的特征包括文本和语言,数据类型均为字符串。数据集的大小类别为10K<n<100K,任务类别为对话。
提供机构:
dbuos
原始信息汇总

OpenAssistant TOP-1 Conversation Threads 数据集概述

数据集基本信息

  • 许可证: Apache-2.0
  • 数据量级: 10K < n < 100K
  • 任务类别: 对话

数据集结构

特征

  • text: 数据类型为字符串
  • lang: 数据类型为字符串

分割

  • train: 包含12,947个样本,总字节数为23,211,220

文件信息

  • 下载大小: 13,220,375字节
  • 数据集大小: 23,211,220字节

配置

  • default: 数据文件路径为data/train-*

数据集描述

  • 导出日期: 2023年8月25日
  • 文件格式: jsonl
  • 对话格式: chatml
  • 样本数量: 训练集包含12,947个样本
  • 语言标记: 包含一列指示所使用的语言
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作