five

bnl-data/bnl_newspapers

收藏
Hugging Face2024-01-24 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/bnl-data/bnl_newspapers
下载链接
链接失效反馈
官方服务:
资源简介:
BnL Historical Newspapers数据集包含了卢森堡国家图书馆(BnL)数字化的历史报纸内容,涵盖了多种语言(如阿拉伯语、丹麦语、德语、芬兰语、法语、卢森堡语、荷兰语和葡萄牙语)。数据集的主要配置是处理后的数据,包含了每篇文章的全文和元数据,如文章类型、发布日期、出版商、语言等。数据集适用于文本生成和掩码语言建模任务。
提供机构:
bnl-data
原始信息汇总

数据集概述

数据集信息

  • 数据集名称: BnL Historical Newspapers
  • 语言: 阿拉伯语 (ar), 丹麦语 (da), 德语 (de), 芬兰语 (fi), 法语 (fr), 卢森堡语 (lb), 荷兰语 (nl), 葡萄牙语 (pt)
  • 许可: CC0-1.0
  • 多语言性: 多语言
  • 数据集大小: 100K<n<1M
  • 源数据: 原始数据
  • 任务类别: 文本生成, 填充掩码
  • 任务ID: 语言建模, 掩码语言建模

数据集结构

数据实例

python { id: https://persist.lu/ark:/70795/wx8r4c/articles/DTL47, article_type: 8, extent: 49, ispartof: Luxemburger Wort, pub_date: datetime.datetime(1853, 3, 23, 0, 0), publisher: Verl. der St-Paulus-Druckerei, source: newspaper/luxwort/1853-03-23, text: Asien. Eine neue Nedcrland-Post ist angekommen mil Nachrichten aus Calcutta bis zum 5. Febr.; Vom» vay, 12. Febr. ; Nangun und HongKong, 13. Jan. Die durch die letzte Post gebrachle Nachricht, der König von Ava sei durch seinen Bruder enlhronl worden, wird bestätigt. (K. Z.) Verantwortl. Herausgeber, F. Schümann., title: Asien., url: http://www.eluxemburgensia.lu/webclient/DeliveryManager?pid=209701#panel:pp|issue:209701|article:DTL47, language: de }

数据字段

  • id: 唯一且持久的标识符,使用ARK。
  • article_type: 导出数据类型,可能值包括:ADVERTISEMENT_SECTION, BIBLIOGRAPHY, CHAPTER, INDEX, CONTRIBUTION, TABLE_OF_CONTENTS, WEATHER, SHIPPING, SECTION, ARTICLE, TITLE_SECTION, DEATH_NOTICE, SUPPLEMENT, TABLE, ADVERTISEMENT, CHART_DIAGRAM, ILLUSTRATION, ISSUE
  • extent: 文本字段中的单词数量
  • ispartof: 源文档的完整标题,例如“Luxemburger Wort”
  • pub_date: 文档的发布日期,例如“1848-12-15”
  • publisher: 文档的出版者,例如“Verl. der St-Paulus-Druckerei”
  • source: 文档的来源描述
  • text: 文章、部分、广告等的完整文本,包括任何标题和副标题,不包含布局信息,如标题、段落或行
  • title: 文章、部分、广告等的主要标题
  • url: 在eluxemburgensia.lu上查看资源的BnLViewer链接
  • language: 文本的语言,可能值包括:ar, da, de, fi, fr, lb, nl, pt

数据分割

  • train: 包含537558个实例,大小为1611597178字节

数据集创建

数据集配置

  • config_name: processed
  • data_files:
    • split: train
    • path: processed/train-*
    • default: true
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作