MLP-Lemma/SFT-arxiv
收藏Hugging Face2024-04-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/MLP-Lemma/SFT-arxiv
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: context
dtype: string
- name: summary
dtype: string
- name: sentences
sequence: string
- name: instruction
dtype: string
splits:
- name: train
num_bytes: 14196998433
num_examples: 203037
- name: validation
num_bytes: 435239658
num_examples: 6436
- name: test
num_bytes: 436024954
num_examples: 6440
download_size: 7276254120
dataset_size: 15068263045
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
数据集信息:
特征字段:
- 名称:上下文(context),数据类型:字符串
- 名称:摘要(summary),数据类型:字符串
- 名称:句子序列(sentences),数据类型:字符串序列
- 名称:指令(instruction),数据类型:字符串
数据集划分:
- 划分名称:训练集(train),字节数:14196998433,样本数量:203037
- 划分名称:验证集(validation),字节数:435239658,样本数量:6436
- 划分名称:测试集(test),字节数:436024954,样本数量:6440
下载总大小:7276254120,数据集总存储大小:15068263045
配置项:
- 配置名称:默认配置(default),数据文件:
- 训练集对应数据路径:data/train-*
- 验证集对应数据路径:data/validation-*
- 测试集对应数据路径:data/test-*
提供机构:
MLP-Lemma
原始信息汇总
数据集概述
数据集特征
- context: 数据类型为字符串。
- summary: 数据类型为字符串。
- sentences: 数据类型为字符串序列。
- instruction: 数据类型为字符串。
数据集分割
- 训练集 (train):
- 示例数量: 203,037
- 数据大小: 14,196,998,433 字节
- 验证集 (validation):
- 示例数量: 6,436
- 数据大小: 435,239,658 字节
- 测试集 (test):
- 示例数量: 6,440
- 数据大小: 436,024,954 字节
数据集大小
- 下载大小: 7,276,254,120 字节
- 总数据集大小: 15,068,263,045 字节
数据文件配置
- 配置名称: default
- 数据文件路径:
- 训练集:
data/train-* - 验证集:
data/validation-* - 测试集:
data/test-*
- 训练集:



