jtatman/orca_mini_uncensored_squad_format_train
收藏Hugging Face2023-09-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jtatman/orca_mini_uncensored_squad_format_train
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于数据提取和格式化,以及跨模型数据使用。数据集是未经过审查的,旨在创建更适合问答任务的数据集,特别是用于小模型的专门领域训练。数据集的结构包括训练和测试分割,数据格式与squadv2数据集相同。
提供机构:
jtatman
原始信息汇总
数据集概述
数据集描述
该数据集是一个“squad 格式重构”的现有数据集,旨在创建更适合小模型进行特定领域训练的问答友好型数据集。
支持的任务和排行榜
- question-answering
语言
数据集主要包含英语(en)。
数据集结构
数据格式
数据集包含以下列:
- "id": 字符串类型
- "title": 字符串类型
- "context": 字符串类型
- "question": 字符串类型
- "answers": 结构体类型,包含以下字段:
- "text": 字符串类型
- "answer_start": 64位整数类型
数据分割
数据集分为训练集和测试集:
- 训练集:包含67300个样本,总大小为118261864.35315199字节
- 测试集:包含7478个样本,总大小为13140597.646848004字节
数据集大小
- 下载大小:65276229字节
- 数据集总大小:131402462.0字节



