five

stallone/oasst-octopack

收藏
Hugging Face2024-07-03 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/stallone/oasst-octopack
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两种配置:conversation和source。conversation配置主要包含对话数据,每条记录包括文档ID和消息列表,消息列表中每条消息包含内容和角色。source配置包含源数据,每条记录包括对话列表、语言和文档ID,对话列表中每条对话包含消息ID、父消息ID、角色和文本。两种配置都只包含训练集,分别有8587个样本。

The dataset contains two configurations: conversation and source. The conversation configuration includes conversation data, with each record containing a document ID and a list of messages, where each message includes content and role. The source configuration includes source data, with each record containing a list of conversations, language, and document ID, where each conversation includes message ID, parent ID, role, and text. Both configurations only include the training set, each with 8587 samples.
提供机构:
stallone
原始信息汇总

数据集概述

数据集配置

配置1: conversation

  • 特征:
    • doc_id: 字符串类型
    • messages: 列表类型
      • content: 字符串类型
      • role: 字符串类型
  • 分割:
    • train:
      • 字节数: 13678799
      • 样本数: 8587
  • 下载大小: 8072853 字节
  • 数据集大小: 13678799 字节
  • 数据文件:
    • train: conversation/train-*

配置2: source

  • 特征:
    • conversations: 列表类型
      • message_id: 字符串类型
      • parent_id: 字符串类型
      • role: 字符串类型
      • text: 字符串类型
    • lang: 字符串类型
    • doc_id: 字符串类型
  • 分割:
    • train:
      • 字节数: 15486010
      • 样本数: 8587
  • 下载大小: 9668774 字节
  • 数据集大小: 15486010 字节
  • 数据文件:
    • train: source/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作