ohtaman/wiki40b-ja
收藏Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ohtaman/wiki40b-ja
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: wikidata_id
dtype: string
- name: text
dtype: string
- name: version_id
dtype: string
splits:
- name: train
num_bytes: 1991410450
num_examples: 745392
- name: validation
num_bytes: 109256305
num_examples: 41576
- name: test
num_bytes: 109567982
num_examples: 41268
download_size: 1320235989
dataset_size: 2210234737
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
提供机构:
ohtaman
原始信息汇总
数据集概述
数据集特征
- wikidata_id: 数据类型为字符串。
- text: 数据类型为字符串。
- version_id: 数据类型为字符串。
数据集分割
- train: 包含745392个样本,总字节数为1991410450。
- validation: 包含41576个样本,总字节数为109256305。
- test: 包含41268个样本,总字节数为109567982。
数据集大小
- 下载大小: 1320235989字节。
- 数据集大小: 2210234737字节。
配置
- config_name: default
- data_files:
- train: 路径为
data/train-* - validation: 路径为
data/validation-* - test: 路径为
data/test-*
- train: 路径为
- data_files:



