ranWang/UN_Historical_PDF_Article_Text_Corpus
收藏Hugging Face2023-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ranWang/UN_Historical_PDF_Article_Text_Corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为UN_Historical_PDF_Article_Text_Corpus,包含了多种语言的文本数据,具体包括阿拉伯语(ar)、英语(en)、西班牙语(es)、法语(fr)、俄语(ru)和中文(zh)。数据集分为两个部分:训练集(train)和随机测试集(randomTest),分别包含142,933和2,839个样本。每个样本包含上述语言的文本内容以及一个记录(record)字段。数据集的下载大小为4,512,532,002字节,总大小为41,183,332,616字节。
该数据集名为UN_Historical_PDF_Article_Text_Corpus,包含了多种语言的文本数据,具体包括阿拉伯语(ar)、英语(en)、西班牙语(es)、法语(fr)、俄语(ru)和中文(zh)。数据集分为两个部分:训练集(train)和随机测试集(randomTest),分别包含142,933和2,839个样本。每个样本包含上述语言的文本内容以及一个记录(record)字段。数据集的下载大小为4,512,532,002字节,总大小为41,183,332,616字节。
提供机构:
ranWang
原始信息汇总
数据集概述
数据集特征
- 名称:UN_Historical_PDF_Article_Text_Corpus
- 特征:
- zh:字符串类型
- ar:字符串类型
- en:字符串类型
- fr:字符串类型
- es:字符串类型
- ru:字符串类型
- record:字符串类型
数据集分割
- train:
- 示例数量:142933
- 字节数:40392264949
- randomTest:
- 示例数量:2839
- 字节数:791067667
数据集大小
- 下载大小:4512532002字节
- 数据集总大小:41183332616字节



