hpprc/jawiki-news
收藏Hugging Face2024-04-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hpprc/jawiki-news
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
config_name: '2024-04-01'
features:
- name: id
dtype: int64
- name: title
dtype: string
- name: text
dtype: string
- name: paragraphs
list:
- name: paragraph_id
dtype: int64
- name: tag
dtype: string
- name: text
dtype: string
- name: title
dtype: string
- name: abstract
dtype: string
- name: wikitext
dtype: string
- name: date_created
dtype: string
- name: date_modified
dtype: string
- name: templates
sequence: string
- name: url
dtype: string
splits:
- name: train
num_bytes: 30338484.07424594
num_examples: 3424
download_size: 15886663
dataset_size: 30338484.07424594
configs:
- config_name: '2024-04-01'
data_files:
- split: train
path: 2024-04-01/train-*
license: cc-by-sa-3.0
language:
- ja
---
数据集信息:
配置名称:'2024-04-01'
特征字段:
- 名称:id,数据类型:64位整数(int64)
- 名称:标题,数据类型:字符串(string)
- 名称:文本,数据类型:字符串(string)
- 名称:段落列表(paragraphs),类型为列表,其包含的子字段为:
- 名称:段落标识符(paragraph_id),数据类型:64位整数(int64)
- 名称:标签(tag),数据类型:字符串(string)
- 名称:文本,数据类型:字符串(string)
- 名称:标题,数据类型:字符串(string)
- 名称:摘要(abstract),数据类型:字符串(string)
- 名称:维基文本(wikitext),数据类型:字符串(string)
- 名称:创建日期(date_created),数据类型:字符串(string)
- 名称:修改日期(date_modified),数据类型:字符串(string)
- 名称:模板序列(templates),类型为字符串序列
- 名称:统一资源定位符(URL),数据类型:字符串(string)
划分集:
- 名称:训练集(train),字节数:30338484.07424594,样本数量:3424
下载大小:15886663
数据集总大小:30338484.07424594
配置项:
- 配置名称:'2024-04-01',数据文件:
- 划分:训练集(train),路径:2024-04-01/train-*
许可证:知识共享署名-相同方式共享3.0协议(CC BY-SA 3.0)
语言:
- 日语(ja)
提供机构:
hpprc
原始信息汇总
数据集概述
数据集配置信息
- 配置名称: 2024-04-01
数据集特征
- id: 整数类型 (int64)
- title: 字符串类型 (string)
- text: 字符串类型 (string)
- paragraphs: 列表类型,包含以下子特征:
- paragraph_id: 整数类型 (int64)
- tag: 字符串类型 (string)
- text: 字符串类型 (string)
- title: 字符串类型 (string)
- abstract: 字符串类型 (string)
- wikitext: 字符串类型 (string)
- date_created: 字符串类型 (string)
- date_modified: 字符串类型 (string)
- templates: 字符串序列类型 (sequence: string)
- url: 字符串类型 (string)
数据集分割
- 训练集 (train):
- 数据量: 30338484.07424594 字节
- 样本数: 3424
数据集大小
- 下载大小: 15886663 字节
- 数据集大小: 30338484.07424594 字节
许可信息
- 许可证: cc-by-sa-3.0
语言
- 主要语言: 日语 (ja)



