five

biglam/europeana_newspapers

收藏
Hugging Face2025-05-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/europeana_newspapers
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自Europeana的历史报纸,总共有约320亿个token。数据集的文档仍在完善中。数据集支持多种语言,包括德语、法语、希腊语、爱沙尼亚语、芬兰语、克罗地亚语、意第绪语、波兰语、俄语、塞尔维亚语、瑞典语和乌克兰语。数据集的主要用途是文本生成和语言建模。
提供机构:
biglam
原始信息汇总

数据集概述

基本信息

  • 名称: Europeana Newspapers
  • 语言: 多语言(de, fr, el, et, fi, hr, ji, pl, ru, sr, sv, uk)
  • 语言创建方式: 机器生成
  • 多语言性: 多语言
  • 大小: 1M<n<10M
  • 任务类别: 文本生成
  • 任务ID: 语言建模
  • 标签: 报纸, LAM, OCR

数据集详情

描述

  • 内容: 包含历史报纸,总计约32亿个令牌。
  • 来源: 来自Europeana

使用方法

  • 直接使用: 可通过Datasets库加载整个数据集或根据语言和年代范围选择子集。

python from datasets import load_dataset dataset = load_dataset("biglam/europeana_newspapers")

  • 子集选择: 通过特定函数根据语言和年代筛选文件。

python from typing import List, Optional, Literal, Union from huggingface_hub import hf_hub_url, list_repo_files

def get_files_for_lang_and_years(languages: Union[None, List[LanguageOption]] = None, min_year: Optional[int] = None, max_year: Optional[int] = None): # 函数实现

结构

  • 文件格式: Parquet
  • 筛选条件: 语言代码和年代范围

总结

Europeana Newspapers 数据集是一个包含多种语言的历史报纸文本集合,适用于文本生成和语言建模任务。用户可以根据需要选择特定语言和年代的文件进行下载和分析。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作