biglam/europeana_newspapers
收藏Hugging Face2025-05-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/europeana_newspapers
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自Europeana的历史报纸,总共有约320亿个token。数据集的文档仍在完善中。数据集支持多种语言,包括德语、法语、希腊语、爱沙尼亚语、芬兰语、克罗地亚语、意第绪语、波兰语、俄语、塞尔维亚语、瑞典语和乌克兰语。数据集的主要用途是文本生成和语言建模。
提供机构:
biglam
原始信息汇总
数据集概述
基本信息
- 名称: Europeana Newspapers
- 语言: 多语言(de, fr, el, et, fi, hr, ji, pl, ru, sr, sv, uk)
- 语言创建方式: 机器生成
- 多语言性: 多语言
- 大小: 1M<n<10M
- 任务类别: 文本生成
- 任务ID: 语言建模
- 标签: 报纸, LAM, OCR
数据集详情
描述
- 内容: 包含历史报纸,总计约32亿个令牌。
- 来源: 来自Europeana。
使用方法
- 直接使用: 可通过
Datasets库加载整个数据集或根据语言和年代范围选择子集。
python from datasets import load_dataset dataset = load_dataset("biglam/europeana_newspapers")
- 子集选择: 通过特定函数根据语言和年代筛选文件。
python from typing import List, Optional, Literal, Union from huggingface_hub import hf_hub_url, list_repo_files
def get_files_for_lang_and_years(languages: Union[None, List[LanguageOption]] = None, min_year: Optional[int] = None, max_year: Optional[int] = None): # 函数实现
结构
- 文件格式: Parquet
- 筛选条件: 语言代码和年代范围
总结
Europeana Newspapers 数据集是一个包含多种语言的历史报纸文本集合,适用于文本生成和语言建模任务。用户可以根据需要选择特定语言和年代的文件进行下载和分析。



