heoji/aihub-koen-720k-512

Name: heoji/aihub-koen-720k-512
Creator: heoji
Published: 2024-06-01 14:28:35
License: 暂无描述

Hugging Face2024-06-01 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/heoji/aihub-koen-720k-512

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: ko dtype: string - name: en dtype: string - name: source dtype: int64 - name: ko_length dtype: int64 - name: en_length dtype: int64 - name: total_length dtype: int64 - name: __index_level_0__ dtype: int64 splits: - name: train num_bytes: 70994861 num_examples: 146261 download_size: 44753820 dataset_size: 70994861 configs: - config_name: default data_files: - split: train path: data/train-* ---

This dataset is primarily used for Korean and English text analysis, featuring Korean text (ko), English text (en), text source (source), Korean text length (ko_length), English text length (en_length), total text length (total_length), and index level (__index_level_0__). The dataset is divided into a training set (train) with 146261 samples, totaling 70994861 bytes. The download size of the dataset is 44753820 bytes, and the dataset size is 70994861 bytes.

提供机构：

heoji

原始信息汇总

数据集概述

数据集特征

ko: 数据类型为字符串。
en: 数据类型为字符串。
source: 数据类型为整数64位。
ko_length: 数据类型为整数64位。
en_length: 数据类型为整数64位。
total_length: 数据类型为整数64位。
index_level_0: 数据类型为整数64位。

数据集分割

train: 包含146,261个示例，总大小为70,994,861字节。

数据集大小

下载大小: 44,753,820字节。
数据集大小: 70,994,861字节。

配置

config_name: default
data_files:
- split: train
- path: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集