davanstrien/MOH-split
收藏Hugging Face2024-06-21 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/MOH-split
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个主要特征:ids和texts,均为字符串类型。数据集分为一个训练集,包含1018139个样本,总大小为724250889字节。数据集是通过使用Corpus Creator工具从文本文件中解析句子块创建的,使用Llama Index进行处理,块大小为256,无块重叠。
该数据集包含两个主要特征:ids和texts,均为字符串类型。数据集分为一个训练集,包含1018139个样本,总大小为724250889字节。数据集是通过使用Corpus Creator工具从文本文件中解析句子块创建的,使用Llama Index进行处理,块大小为256,无块重叠。
提供机构:
davanstrien
原始信息汇总
数据集概述
数据集信息
-
特征:
ids: 数据类型为stringtexts: 数据类型为string
-
分割:
train:- 字节数: 724250889
- 样本数: 1018139
-
下载大小: 410769400
-
数据集大小: 724250889
配置
- 配置名称:
default- 数据文件:
train:data/train-*
- 数据文件:
标签
corpus-creator



