PleIAs/Korean-PD

Name: PleIAs/Korean-PD
Creator: PleIAs
Published: 2024-03-21 15:22:53
License: 暂无描述

Hugging Face2024-03-21 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/PleIAs/Korean-PD

下载链接

链接失效反馈

官方服务：

资源简介：

Korean-Public Domain（韩国公共领域）数据集是一个大规模的韩语专著和期刊集合，旨在收集所有韩语公共领域的作品。该数据集包含1,868个标题，共计40,214,255个单词，这些数据来自Internet Archive。每个parquet文件包含随机选择的2,000本书的完整文本。数据集的构建遵循韩国公共领域作品的标准，即作者去世超过70年的出版物。截至2024年3月，为了限制权利验证，数据集仅保留了1884年之前出版的标题。未来，数据集将扩展到19世纪末和20世纪初的作品，并在验证公共领域有效性后进一步扩展。该数据集的主要用途是扩展开放作品的可用性，用于大型语言模型的训练，并且可以无限制地重新发布以用于再现性目的。整个数据集在公共领域，不受版权限制。

提供机构：

PleIAs

原始信息汇总

韩国公共领域数据集概述

数据集概况

名称: Korean-Public Domain (Korean-PD)
内容: 包含1,868个标题，总计40,214,255字，来自互联网档案馆。
文件格式: 每个parquet文件包含随机选择的2,000本书的全文。

数据集构成

标准: 遵循韩国公共领域作品标准，即作者去世超过70年的出版物。
当前限制: 截至2024年3月，仅包含1884年之前的出版物。
未来扩展: 计划扩展至19世纪末至20世纪初的出版物，需验证公共领域有效性。

数据集用途

目的: 用于大型语言模型的训练，文本可无限制地用于模型训练和重新发布，以支持可重复性。
创建理由:
- 科学: 解决AI研究中训练语料库封闭的问题。
- 法律: 遵守AI法案中关于版权法合规的要求。
- 文化: 增强欧洲联盟语言多样性的代表性。
- 经济: 减少对数据收集或购买成本高的主导角色的依赖，促进创新。

许可证

状态: 整个数据集在全球范围内属于公共领域。

未来工作

数据集扩展: 将包括19世纪末至20世纪初的作品，并整合来自欧洲文化遗产数据存储库的其他未开发收藏。
文本错误修正: 所有文本通过光学字符识别(OCR)软件自动转录，未来版本将重新转录或使用实验性LLM模型进行部分OCR校正。
结构/编辑展示增强: 改进原始文本的结构，去除不适用于大规模分析或模型训练的部分，如页眉、页码等，并优化复杂文档结构，如表格或多栏布局。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集