devngho/oldhangul-dataset
收藏Hugging Face2024-07-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/devngho/oldhangul-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于韩文维基文库构建的旧韩文数据集,包含两个配置:wikisource和wikisource_v2。每个配置都有标题、描述、许可证、文本和元数据等特征。数据集的大小在1K到10K之间,主要用于韩文文本处理。数据集的许可证为CC BY-SA 4.0,数据来源为韩文维基文库。
该数据集是基于韩文维基文库构建的旧韩文数据集,包含两个配置:wikisource和wikisource_v2。每个配置都有标题、描述、许可证、文本和元数据等特征。数据集的大小在1K到10K之间,主要用于韩文文本处理。数据集的许可证为CC BY-SA 4.0,数据来源为韩文维基文库。
提供机构:
devngho
原始信息汇总
数据集概述
数据集名称
- config_name: wikisource
数据集特征
- title: 数据类型为字符串
- description: 数据类型为字符串
- license: 结构化数据,包含以下子特征:
- accessed_at: 数据类型为字符串
- original_source: 结构化数据,包含以下子特征:
- author: 数据类型为字符串
- source: 数据类型为字符串
- wiki_source_link: 数据类型为字符串
- text: 数据类型为字符串
- meta: 结构化数据,包含以下子特征:
- page: 数据类型为int64
- year: 数据类型为float64
- index_level_0: 数据类型为int64
数据集分割
- train: 数据大小为18590137字节,包含7077个样本
数据集大小
- download_size: 6189434字节
- dataset_size: 18590137字节
许可证
- license: cc-by-sa-4.0
语言
- ko
标签
- oldhangul
大小分类
- 1K<n<10K



