proxectonos/corpus_dominio_periodistico

Name: proxectonos/corpus_dominio_periodistico
Creator: proxectonos
Published: 2026-04-22 15:19:49
License: 暂无描述

Hugging Face2026-04-22 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/proxectonos/corpus_dominio_periodistico

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库汇集了来自加利西亚语数字新闻媒体的新闻文本，这些文本来自不同的媒体和不同的采集项目和阶段。该集合代表了当代新闻记录，旨在用于自然语言处理任务。语料库包括先前集成到CorpusNÓS中的集合（具有简化的数据模式）和保留直接从结构化来源提取的完整新闻元数据的较新集合。语料库中的文本来自以下加利西亚语数字媒体：Galicia é、Galicia Hoxe、Tempos Dixital、Xornal GL、A Nosa Terra、Nós Diario、Praza Pública和Código Cero。部分媒体以平面JSON格式提供，主要关注文本内容，而Nós Diario和Praza Pública的语料库则保留了详细的新闻信息，如创建日期、发布日期、URL、标题、主题类别、正文、关键词等。所有文本均以JSONL格式分发，适用于语言建模、加利西亚语当代新闻语料分析、信息提取实验等用途。数据集采用CC BY 4.0许可。

The journalistic corpus gathers informative texts from digital press in Galician, collected from different media and within the framework of different projects and acquisition phases. The set represents the contemporary journalistic record and is intended for use in natural language processing tasks. The corpus includes both collections previously integrated into CorpusNÓS, with a simplified data schema, and more recent sets that retain complete journalistic metadata extracted directly from structured sources. The corpus includes texts from the following Galician digital media: Galicia é, Galicia Hoxe, Tempos Dixital, Xornal GL, A Nosa Terra, Nós Diario, Praza Pública, and Código Cero. Part of the media is incorporated in a flat JSON format, mainly oriented to textual content, while the corpora corresponding to Nós Diario and Praza Pública retain detailed journalistic information such as creation dates, publication dates, URLs, headlines, thematic categories, body text, keywords, etc. All texts are distributed in JSONL format and are suitable for language modeling, analysis of contemporary Galician journalistic corpus, information extraction experiments, etc. The dataset is licensed under CC BY 4.0.

提供机构：

proxectonos

5,000+

优质数据集

54 个

任务类型

进入经典数据集