bourdoiscatie/wikipedia_fr_2022
收藏Hugging Face2025-04-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/bourdoiscatie/wikipedia_fr_2022
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征字段,包括标题(title)、文本内容(text)、维基百科ID(wiki_id)、浏览量(views)、段落ID(paragraph_id)、语言代码(langs)以及嵌入向量(emb)。数据集主要用于存储与维基百科相关的文本数据,可能用于自然语言处理任务,如文本分类、信息检索或语言模型训练。数据集包含一个训练集分割,包含13,326,273个样本,总大小为60,149,268,480字节。
该数据集包含多个特征字段,包括标题(title)、文本内容(text)、维基百科ID(wiki_id)、浏览量(views)、段落ID(paragraph_id)、语言代码(langs)以及嵌入向量(emb)。数据集主要用于存储与维基百科相关的文本数据,可能用于自然语言处理任务,如文本分类、信息检索或语言模型训练。数据集包含一个训练集分割,包含13,326,273个样本,总大小为60,149,268,480字节。
提供机构:
bourdoiscatie
原始信息汇总
数据集概述
数据集特征
- title:字符串类型
- text:字符串类型
- wiki_id:整数类型(int32)
- views:浮点数类型(float32)
- paragraph_id:整数类型(int32)
- langs:整数类型(int32)
- emb:序列类型,浮点数类型(float32)
数据集分割
- train:
- 数据量:13326273个样本
- 存储大小:60149268480字节
数据集大小
- 下载大小:66185591146字节
- 数据集大小:60149268480字节
配置信息
- config_name:default
- data_files:
- split:train
- path:data/train-*



