five

ChangeIsKey/kubhist2

收藏
Hugging Face2023-08-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ChangeIsKey/kubhist2
下载链接
链接失效反馈
官方服务:
资源简介:
Kubhist 2数据集是由瑞典哥德堡大学的Språkbanken Text创建、整理并提供的,涵盖了从1640年代到1900年代的瑞典报纸的OCR文本。该数据集在HuggingFace上的版本仅包含OCR文本,并按年代划分为多个子集,每个子集包含一行文本,且只保留长度超过4个单词的句子。数据集的总大小为7999426267字节,包含285384149个例子。数据集的语言为瑞典语,许可证为CC BY 4.0 ShareAlike。
提供机构:
ChangeIsKey
原始信息汇总

数据集概述

数据集名称

  • 名称: kubhist2

数据集内容

  • 类型: 文本数据集
  • 内容: 包含瑞典历史报纸的OCR文本,时间跨度从1640年代至1900年代。
  • 特征: 仅包含文本信息,每个特征名为text,数据类型为string

数据集结构

  • 配置名称: 多个配置,如1640, 1650, ..., 1900,以及all
  • 分割: 仅包含train分割。
  • 数据量:
    • 每个配置的train分割包含的示例数和字节数不同,例如:
      • 1640: 3509个示例,254777字节
      • 1650: 412个示例,31314字节
      • 1660: 726个示例,56559字节
      • ...
      • 1900: 3284826个示例,205822484字节
    • all配置包含285,384,149个示例,7999426267字节。

数据集使用

  • 加载方式: 可通过load_dataset函数加载,支持加载全部数据或特定年代的数据。

  • 示例代码: python dataset = load_dataset("ChangeIsKey/kubhist2")

    或 python dataset = load_dataset("ChangeIsKey/kubhist2", "decade")

许可证

  • 许可证: Creative Commons Attribution Share Alike 4.0 (CC BY-SA 4.0)

数据集语言

  • 语言: 瑞典语

数据集标签

  • 标签: 报纸, 历史

数据集大小

  • 大小: 1B<n<10B

任务类别

  • 任务类别: 文本生成

数据集创建

  • 原始数据: 原始数据为XML格式,包含多种注释,可从https://spraakbanken.gu.se/en/resources/kubhist2获取。
  • 数据处理: 仅保留报纸的运行文本,移除了少于4个单词的句子,实现了数据大小的显著减少。

注意事项

  • 数据质量: 由于数据来自OCR处理,早期年代的文本可能存在不完美之处。
  • 历史偏见: 数据为历史数据,可能包含过时的观点。

数据集贡献者

  • 贡献者: 此Hugging Face版本的数据集由Simon Hengchen创建。

引用信息

  • 引用: 应引用原始kubhist2发布,并可选择性地添加指向Hugging Face页面的链接:https://huggingface.co/datasets/ChangeIsKey/kubhist2。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作