five

jtatman/orca_mini_uncensored_squad_format_train

收藏
Hugging Face2023-09-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jtatman/orca_mini_uncensored_squad_format_train
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集主要用于数据提取和格式化,以及跨模型数据使用。数据集是未经过审查的,旨在创建更适合问答任务的数据集,特别是用于小模型的专门领域训练。数据集的结构包括训练和测试分割,数据格式与squadv2数据集相同。
提供机构:
jtatman
原始信息汇总

数据集概述

数据集描述

该数据集是一个“squad 格式重构”的现有数据集,旨在创建更适合小模型进行特定领域训练的问答友好型数据集。

支持的任务和排行榜

  • question-answering

语言

数据集主要包含英语(en)。

数据集结构

数据格式

数据集包含以下列:

  • "id": 字符串类型
  • "title": 字符串类型
  • "context": 字符串类型
  • "question": 字符串类型
  • "answers": 结构体类型,包含以下字段:
    • "text": 字符串类型
    • "answer_start": 64位整数类型

数据分割

数据集分为训练集和测试集:

  • 训练集:包含67300个样本,总大小为118261864.35315199字节
  • 测试集:包含7478个样本,总大小为13140597.646848004字节

数据集大小

  • 下载大小:65276229字节
  • 数据集总大小:131402462.0字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作