jp1924/BookKoreanCorpusDataset
收藏Hugging Face2024-06-08 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/jp1924/BookKoreanCorpusDataset
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: corpus
dtype: string
- name: category
dtype: string
- name: sentence_ls
list: string
- name: metadata
struct:
- name: kdc
dtype: string
- name: class
dtype: int32
- name: author
struct:
- name: birth_year
dtype: int32
- name: write_age
dtype: int32
- name: jobs
list: string
- name: published_year
dtype: int32
- name: sentences
list:
- name: text
dtype: string
- name: original_text
dtype: string
- name: char_count
dtype: int32
- name: word_count
dtype: int32
- name: noise_ratio
dtype: float32
- name: id
dtype: string
splits:
- name: train
num_bytes: 56782425507
num_examples: 51041696
- name: validation
num_bytes: 9609638018
num_examples: 6383809
download_size: 39108808804
dataset_size: 66392063525
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
---
提供机构:
jp1924
原始信息汇总
数据集概述
数据集信息
特征
- id: 字符串类型
- corpus: 字符串类型
- category: 字符串类型
- sentence_ls: 字符串列表
- metadata: 结构体类型
- kdc: 字符串类型
- class: 32位整数类型
- author: 结构体类型
- birth_year: 32位整数类型
- write_age: 32位整数类型
- jobs: 字符串列表
- published_year: 32位整数类型
- sentences: 列表类型
- text: 字符串类型
- original_text: 字符串类型
- char_count: 32位整数类型
- word_count: 32位整数类型
- noise_ratio: 32位浮点数类型
- id: 字符串类型
数据分割
- train:
- 字节数: 56782425507
- 样本数: 51041696
- validation:
- 字节数: 9609638018
- 样本数: 6383809
数据集大小
- 下载大小: 39108808804 字节
- 数据集总大小: 66392063525 字节
配置
- config_name: default
- data_files:
- train: data/train-*
- validation: data/validation-*
- data_files:



