ChangeIsKey/kubhist2
收藏Hugging Face2023-08-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ChangeIsKey/kubhist2
下载链接
链接失效反馈官方服务:
资源简介:
Kubhist 2数据集是由瑞典哥德堡大学的Språkbanken Text创建、整理并提供的,涵盖了从1640年代到1900年代的瑞典报纸的OCR文本。该数据集在HuggingFace上的版本仅包含OCR文本,并按年代划分为多个子集,每个子集包含一行文本,且只保留长度超过4个单词的句子。数据集的总大小为7999426267字节,包含285384149个例子。数据集的语言为瑞典语,许可证为CC BY 4.0 ShareAlike。
提供机构:
ChangeIsKey
原始信息汇总
数据集概述
数据集名称
- 名称: kubhist2
数据集内容
- 类型: 文本数据集
- 内容: 包含瑞典历史报纸的OCR文本,时间跨度从1640年代至1900年代。
- 特征: 仅包含文本信息,每个特征名为
text,数据类型为string。
数据集结构
- 配置名称: 多个配置,如
1640,1650, ...,1900,以及all。 - 分割: 仅包含
train分割。 - 数据量:
- 每个配置的
train分割包含的示例数和字节数不同,例如:1640: 3509个示例,254777字节1650: 412个示例,31314字节1660: 726个示例,56559字节- ...
1900: 3284826个示例,205822484字节
all配置包含285,384,149个示例,7999426267字节。
- 每个配置的
数据集使用
-
加载方式: 可通过
load_dataset函数加载,支持加载全部数据或特定年代的数据。 -
示例代码: python dataset = load_dataset("ChangeIsKey/kubhist2")
或 python dataset = load_dataset("ChangeIsKey/kubhist2", "decade")
许可证
- 许可证: Creative Commons Attribution Share Alike 4.0 (CC BY-SA 4.0)
数据集语言
- 语言: 瑞典语
数据集标签
- 标签: 报纸, 历史
数据集大小
- 大小: 1B<n<10B
任务类别
- 任务类别: 文本生成
数据集创建
- 原始数据: 原始数据为XML格式,包含多种注释,可从https://spraakbanken.gu.se/en/resources/kubhist2获取。
- 数据处理: 仅保留报纸的运行文本,移除了少于4个单词的句子,实现了数据大小的显著减少。
注意事项
- 数据质量: 由于数据来自OCR处理,早期年代的文本可能存在不完美之处。
- 历史偏见: 数据为历史数据,可能包含过时的观点。
数据集贡献者
- 贡献者: 此Hugging Face版本的数据集由Simon Hengchen创建。
引用信息
- 引用: 应引用原始kubhist2发布,并可选择性地添加指向Hugging Face页面的链接:https://huggingface.co/datasets/ChangeIsKey/kubhist2。



