yuri-no/miracl-corpus-ita-argos
收藏Hugging Face2024-07-02 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/yuri-no/miracl-corpus-ita-argos
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含三个主要特征:docid(文档ID)、title(标题)和text(文本内容),均为字符串类型。数据集分为两个部分:full和mini,分别包含32893221和33689个样本,文件大小分别为14848654486.0和28263211.0字节。数据集的下载大小为8730240153字节,总大小为14876917697.0字节。配置信息中指定了数据文件的路径。
The dataset contains three main features: docid (document ID), title, and text, all of which are of string type. The dataset is divided into two parts: full and mini, containing 32,893,221 and 33,689 samples respectively, with file sizes of 14,848,654,486.0 and 28,263,211.0 bytes. The download size of the dataset is 8,730,240,153 bytes, and the total size is 14,876,917,697.0 bytes. The configuration information specifies the paths to the data files.
提供机构:
yuri-no
原始信息汇总
数据集概述
数据集特征
- docid: 文档ID,数据类型为字符串。
- title: 文档标题,数据类型为字符串。
- text: 文档文本内容,数据类型为字符串。
数据集分割
- full:
- 字节数: 14848654486.0
- 样本数: 32893221
- mini:
- 字节数: 28263211.0
- 样本数: 33689
数据集大小
- 下载大小: 8730240153 字节
- 总大小: 14876917697.0 字节
配置
- default:
- full: 数据文件路径为
data/full-* - mini: 数据文件路径为
data/mini-*
- full: 数据文件路径为



