biglam/bnl_newspapers1841-1879
收藏Hugging Face2024-11-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/bnl_newspapers1841-1879
下载链接
链接失效反馈官方服务:
资源简介:
BnL Newspapers 1841-1879数据集包含了1841年至1879年间的历史报纸文章,共计630,709篇文章,涵盖了21种报纸标题,24,415期报纸,99,957页扫描内容。数据通过多种OCR引擎转录,并使用特定工具进行了校正,确保了95%以上的准确率。数据集支持文本生成和掩码语言模型任务,主要语言为德语、法语和卢森堡语。数据集的创建由卢森堡国家图书馆负责,所有数据均为公共领域,采用CC0许可证。
提供机构:
biglam
原始信息汇总
数据集概述
数据集名称
- BnL Newspapers 1841-1879
数据集语言
- 德语 (de)
- 法语 (fr)
- 卢森堡语 (lb)
- 荷兰语 (nl)
- 拉丁语 (la)
- 英语 (en)
数据集许可证
- CC0-1.0
数据集大小
- 100K<n<1M 文章数量
数据集任务类别
- 文本生成
- 填充掩码
数据集特征
- publisher (字符串)
- paperID (字符串)
- title (字符串)
- text (字符串)
- newpaperTitle (字符串)
- date (时间戳[ns])
- metsType (字符串)
- identifier (字符串)
- type (字符串)
- creator (字符串)
数据集结构
- 数据集分为训练集,包含 630709 个实例,总大小为 1605420260 字节。
数据集创建
- 数据集由卢森堡国家图书馆创建,作为其报纸数字化项目的一部分。
- 数据来源于历史印刷报纸,通过数字化过程生成。
数据集使用注意事项
- 数据集中的文本存在95%或更高的OCR转录质量。
- 数据集反映了报纸编辑和记者在出版时的偏见,特别是在1940/05/10至1944/09/10期间,纳粹占领者控制了所有出版信息。
数据集贡献者
- 感谢 @ymaurer 添加此数据集。



