devngho/oldhangul-dataset-cleaned
收藏Hugging Face2024-07-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/devngho/oldhangul-dataset-cleaned
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于Wikisource构建的古韩文数据集,包含两个配置:wikisource和wikisource_v2。每个配置都有训练集,包含标题、描述、许可证信息、文本和元数据等特征。数据集的大小在1K到10K之间,许可证为CC BY-SA 4.0。cleaned版本过滤了汉字比例超过20%的文本,并清理了HTML标签和多余的空格。
该数据集是基于Wikisource构建的古韩文数据集,包含两个配置:wikisource和wikisource_v2。每个配置都有训练集,包含标题、描述、许可证信息、文本和元数据等特征。数据集的大小在1K到10K之间,许可证为CC BY-SA 4.0。cleaned版本过滤了汉字比例超过20%的文本,并清理了HTML标签和多余的空格。
提供机构:
devngho
原始信息汇总
数据集概述
数据集名称
- 配置名称: wikisource
数据集特征
- 标题 (string)
- 描述 (string)
- 许可证 (struct):
- 访问时间 (string)
- 原始来源 (struct):
- 作者 (string)
- 来源 (string)
- 维基来源链接 (string)
- 文本 (string)
- 元数据 (struct):
- 页码 (int64)
- 年份 (float64)
- 索引级别0 (int64)
数据集分割
- 训练集:
- 字节数: 15012909
- 示例数: 5376
数据集大小
- 下载大小: 4962866
- 数据集大小: 15012909
许可证
- 许可证类型: CC BY-SA 4.0
语言
- 语言: 韩语 (ko)
标签
- 标签: 옛한글
大小类别
- 大小范围: 1K<n<10K



