five

Seooooooogi/baseline_with_DPO

收藏
Hugging Face2024-06-26 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Seooooooogi/baseline_with_DPO
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含一个名为data的特征,该特征进一步包含多个子特征,如background、paragraphs等。paragraphs是一个列表,包含context、id和qas等子特征。qas也是一个列表,包含answers、followup、id、orig_answer、question和yesno等子特征。数据集只有一个训练集(train),包含11567个样本,文件大小为57730194字节。

该数据集包含一个名为data的特征,该特征进一步包含多个子特征,如background、paragraphs等。paragraphs是一个列表,包含context、id和qas等子特征。qas也是一个列表,包含answers、followup、id、orig_answer、question和yesno等子特征。数据集只有一个训练集(train),包含11567个样本,文件大小为57730194字节。
提供机构:
Seooooooogi
原始信息汇总

数据集概述

数据结构

  • data: 主数据字段
    • background: 背景信息,数据类型为 string
    • paragraphs: 段落列表
      • context: 段落内容,数据类型为 string
      • id: 段落ID,数据类型为 string
      • qas: 问题与答案列表
        • answers: 答案列表
          • answer_start: 答案开始位置,数据类型为 int64
          • text: 答案文本,数据类型为 string
        • followup: 后续问题,数据类型为 string
        • id: 问题ID,数据类型为 string
        • orig_answer: 原始答案结构
          • answer_start: 原始答案开始位置,数据类型为 int64
          • text: 原始答案文本,数据类型为 string
        • question: 问题文本,数据类型为 string
        • yesno: 是否/否问题标记,数据类型为 string
    • section_title: 章节标题,数据类型为 string
    • title: 标题,数据类型为 string

数据集划分

  • train: 训练集
    • num_bytes: 57730194 字节
    • num_examples: 11567 个样本

数据集大小

  • download_size: 31337311 字节
  • dataset_size: 57730194 字节

配置

  • default: 默认配置
    • data_files:
      • split: train
      • path: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作