five

PleIAs/Korean-PD

收藏
Hugging Face2024-03-21 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/Korean-PD
下载链接
链接失效反馈
官方服务:
资源简介:
Korean-Public Domain(韩国公共领域)数据集是一个大规模的韩语专著和期刊集合,旨在收集所有韩语公共领域的作品。该数据集包含1,868个标题,共计40,214,255个单词,这些数据来自Internet Archive。每个parquet文件包含随机选择的2,000本书的完整文本。数据集的构建遵循韩国公共领域作品的标准,即作者去世超过70年的出版物。截至2024年3月,为了限制权利验证,数据集仅保留了1884年之前出版的标题。未来,数据集将扩展到19世纪末和20世纪初的作品,并在验证公共领域有效性后进一步扩展。该数据集的主要用途是扩展开放作品的可用性,用于大型语言模型的训练,并且可以无限制地重新发布以用于再现性目的。整个数据集在公共领域,不受版权限制。

Korean-Public Domain(韩国公共领域)数据集是一个大规模的韩语专著和期刊集合,旨在收集所有韩语公共领域的作品。该数据集包含1,868个标题,共计40,214,255个单词,这些数据来自Internet Archive。每个parquet文件包含随机选择的2,000本书的完整文本。数据集的构建遵循韩国公共领域作品的标准,即作者去世超过70年的出版物。截至2024年3月,为了限制权利验证,数据集仅保留了1884年之前出版的标题。未来,数据集将扩展到19世纪末和20世纪初的作品,并在验证公共领域有效性后进一步扩展。该数据集的主要用途是扩展开放作品的可用性,用于大型语言模型的训练,并且可以无限制地重新发布以用于再现性目的。整个数据集在公共领域,不受版权限制。
提供机构:
PleIAs
原始信息汇总

韩国公共领域数据集概述

数据集概况

  • 名称: Korean-Public Domain (Korean-PD)
  • 内容: 包含1,868个标题,总计40,214,255字,来自互联网档案馆。
  • 文件格式: 每个parquet文件包含随机选择的2,000本书的全文。

数据集构成

  • 标准: 遵循韩国公共领域作品标准,即作者去世超过70年的出版物。
  • 当前限制: 截至2024年3月,仅包含1884年之前的出版物。
  • 未来扩展: 计划扩展至19世纪末至20世纪初的出版物,需验证公共领域有效性。

数据集用途

  • 目的: 用于大型语言模型的训练,文本可无限制地用于模型训练和重新发布,以支持可重复性。
  • 创建理由:
    • 科学: 解决AI研究中训练语料库封闭的问题。
    • 法律: 遵守AI法案中关于版权法合规的要求。
    • 文化: 增强欧洲联盟语言多样性的代表性。
    • 经济: 减少对数据收集或购买成本高的主导角色的依赖,促进创新。

许可证

  • 状态: 整个数据集在全球范围内属于公共领域。

未来工作

  • 数据集扩展: 将包括19世纪末至20世纪初的作品,并整合来自欧洲文化遗产数据存储库的其他未开发收藏。
  • 文本错误修正: 所有文本通过光学字符识别(OCR)软件自动转录,未来版本将重新转录或使用实验性LLM模型进行部分OCR校正。
  • 结构/编辑展示增强: 改进原始文本的结构,去除不适用于大规模分析或模型训练的部分,如页眉、页码等,并优化复杂文档结构,如表格或多栏布局。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作