ChangeIsKey/kubhist2

Name: ChangeIsKey/kubhist2
Creator: ChangeIsKey
Published: 2023-08-10 09:20:43
License: 暂无描述

Hugging Face2023-08-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ChangeIsKey/kubhist2

下载链接

链接失效反馈

官方服务：

资源简介：

Kubhist 2数据集是由瑞典哥德堡大学的Språkbanken Text创建、整理并提供的，涵盖了从1640年代到1900年代的瑞典报纸的OCR文本。该数据集在HuggingFace上的版本仅包含OCR文本，并按年代划分为多个子集，每个子集包含一行文本，且只保留长度超过4个单词的句子。数据集的总大小为7999426267字节，包含285384149个例子。数据集的语言为瑞典语，许可证为CC BY 4.0 ShareAlike。

提供机构：

ChangeIsKey

原始信息汇总

数据集概述

数据集名称

名称: kubhist2

数据集内容

类型: 文本数据集
内容: 包含瑞典历史报纸的OCR文本，时间跨度从1640年代至1900年代。
特征: 仅包含文本信息，每个特征名为text，数据类型为string。

数据集结构

配置名称: 多个配置，如1640, 1650, ..., 1900，以及all。
分割: 仅包含train分割。
数据量:
- 每个配置的train分割包含的示例数和字节数不同，例如：
  - 1640: 3509个示例，254777字节
  - 1650: 412个示例，31314字节
  - 1660: 726个示例，56559字节
  - ...
  - 1900: 3284826个示例，205822484字节
- all配置包含285,384,149个示例，7999426267字节。

数据集使用

加载方式: 可通过load_dataset函数加载，支持加载全部数据或特定年代的数据。
示例代码: python dataset = load_dataset("ChangeIsKey/kubhist2")

或 python dataset = load_dataset("ChangeIsKey/kubhist2", "decade")

许可证

许可证: Creative Commons Attribution Share Alike 4.0 (CC BY-SA 4.0)

数据集语言

语言: 瑞典语

数据集标签

标签: 报纸, 历史

数据集大小

大小: 1B<n<10B

任务类别

任务类别: 文本生成

数据集创建

原始数据: 原始数据为XML格式，包含多种注释，可从https://spraakbanken.gu.se/en/resources/kubhist2获取。
数据处理: 仅保留报纸的运行文本，移除了少于4个单词的句子，实现了数据大小的显著减少。

注意事项

数据质量: 由于数据来自OCR处理，早期年代的文本可能存在不完美之处。
历史偏见: 数据为历史数据，可能包含过时的观点。

数据集贡献者

贡献者: 此Hugging Face版本的数据集由Simon Hengchen创建。

引用信息

引用: 应引用原始kubhist2发布，并可选择性地添加指向Hugging Face页面的链接：https://huggingface.co/datasets/ChangeIsKey/kubhist2。

5,000+

优质数据集

54 个

任务类型

进入经典数据集