biglam/europeana_newspapers

Name: biglam/europeana_newspapers
Creator: biglam
Published: 2025-05-02 16:34:32
License: 暂无描述

Hugging Face2025-05-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/biglam/europeana_newspapers

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自Europeana的历史报纸，总共有约320亿个token。数据集的文档仍在完善中。数据集支持多种语言，包括德语、法语、希腊语、爱沙尼亚语、芬兰语、克罗地亚语、意第绪语、波兰语、俄语、塞尔维亚语、瑞典语和乌克兰语。数据集的主要用途是文本生成和语言建模。

提供机构：

biglam

原始信息汇总

数据集概述

基本信息

名称: Europeana Newspapers
语言: 多语言（de, fr, el, et, fi, hr, ji, pl, ru, sr, sv, uk）
语言创建方式: 机器生成
多语言性: 多语言
大小: 1M<n<10M
任务类别: 文本生成
任务ID: 语言建模
标签: 报纸, LAM, OCR

数据集详情

描述

内容: 包含历史报纸，总计约32亿个令牌。
来源: 来自Europeana。

使用方法

直接使用: 可通过Datasets库加载整个数据集或根据语言和年代范围选择子集。

python from datasets import load_dataset dataset = load_dataset("biglam/europeana_newspapers")

子集选择: 通过特定函数根据语言和年代筛选文件。

python from typing import List, Optional, Literal, Union from huggingface_hub import hf_hub_url, list_repo_files

def get_files_for_lang_and_years(languages: Union[None, List[LanguageOption]] = None, min_year: Optional[int] = None, max_year: Optional[int] = None): # 函数实现

结构

文件格式: Parquet
筛选条件: 语言代码和年代范围

总结

Europeana Newspapers 数据集是一个包含多种语言的历史报纸文本集合，适用于文本生成和语言建模任务。用户可以根据需要选择特定语言和年代的文件进行下载和分析。

5,000+

优质数据集

54 个

任务类型

进入经典数据集