PleIAs/Swedish-PD
收藏Hugging Face2024-07-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/Swedish-PD
下载链接
链接失效反馈官方服务:
资源简介:
Swedish-Public Domain(瑞典公共领域)数据集是一个大规模的瑞典语公共领域文献集合,包含了3113个独立标题,总计322,141,347个单词,来源于多个资源,如Internet Archive和欧洲各国的国家图书馆及文化遗产机构。数据集的构建遵循欧盟公共领域作品的标准,特别是作者去世超过70年的出版物。数据集的主要用途是扩展开放作品的可获得性,用于大型语言模型的训练,并且可以无限制地重新发布以支持研究的可重复性。数据集目前仅包含1884年之前出版的文献,未来计划扩展到19世纪末和20世纪初的出版物。数据集完全属于公共领域,不受版权限制。未来的工作包括扩展数据集、纠正OCR生成的错误以及改进文本的结构和编辑呈现。
Swedish-Public Domain(瑞典公共领域)数据集是一个大规模的瑞典语公共领域文献集合,包含了3113个独立标题,总计322,141,347个单词,来源于多个资源,如Internet Archive和欧洲各国的国家图书馆及文化遗产机构。数据集的构建遵循欧盟公共领域作品的标准,特别是作者去世超过70年的出版物。数据集的主要用途是扩展开放作品的可获得性,用于大型语言模型的训练,并且可以无限制地重新发布以支持研究的可重复性。数据集目前仅包含1884年之前出版的文献,未来计划扩展到19世纪末和20世纪初的出版物。数据集完全属于公共领域,不受版权限制。未来的工作包括扩展数据集、纠正OCR生成的错误以及改进文本的结构和编辑呈现。
提供机构:
PleIAs
原始信息汇总
数据集概述
数据集名称
Swedish-Public Domain 或 Swedish-PD
数据集描述
- 该数据集旨在聚合所有瑞典公共领域的专著和期刊,是目前最大的瑞典开放语料库。
- 截至2024年3月,包含3113个独立标题,总计322,141,347字,来源于多个资源,包括互联网档案馆和多个欧洲国家图书馆及文化遗产机构。
- 每个parquet文件包含随机选择的2000本书的全文。
数据集构成
- 数据集遵循欧盟及伯尔尼国家对公共领域作品的定义标准:作者去世超过70年的出版物。
- 截至2024年3月,仅保留1884年之前出版的标题,未来将扩展至19世纪末至20世纪初的出版物。
数据集用途
- 主要用于大型语言模型的训练,文本可无限制用于模型训练和再发布,以支持可重复性研究。
许可证
- 整个数据集在全球范围内属于公共领域,意味着所有个人或集体版权持有者的遗产权已过期。
未来发展
- 计划扩展数据集至19世纪末至20世纪初的作品,并进一步增强数据集,包括来自欧洲文化遗产数据存储库的未开发收藏。
- 修正文本中的计算机生成错误,所有文本通过光学字符识别(OCR)软件自动转录。
- 改进原始文本的结构/编辑呈现,以适应大规模分析或模型训练的需求。



