Nos_Corpus_Periodistico. Corpus de dominio periodístico.
收藏Zenodo2026-04-24 更新2026-05-26 收录
下载链接:
https://zenodo.org/doi/10.5281/zenodo.17943273
下载链接
链接失效反馈官方服务:
资源简介:
Aviso sobre actualizaciones / Aviso sobre actualizacións / Update notice
(ES)
Una versión actualizada de Corpus de dominio periodístico está disponible en Hugging Face: https://huggingface.co/datasets/proxectonos/corpus_dominio_periodistico
Las futuras actualizaciones, correcciones y versiones ampliadas del corpus se publicarán principalmente a través del repositorio de Hugging Face. Este registro de Zenodo se mantiene con fines de archivo y citación, pero se recomienda a las personas usuarias consultar la versión de Hugging Face para acceder a la publicación más reciente.
(GL)
Unha versión actualizada de Corpus de dominio xornalístico está dispoñible en Hugging Face: https://huggingface.co/datasets/proxectonos/corpus_dominio_periodistico
As futuras actualizacións, correccións e versións ampliadas do corpus publicaranse principalmente a través do repositorio de Hugging Face. Este rexistro de Zenodo mantense con fins de arquivo e citación, mais recoméndase ás persoas usuarias consultar a versión de Hugging Face para acceder á publicación máis recente.
(EN)
An updated version of Corpus de dominio periodístico is available on Hugging Face: https://huggingface.co/datasets/proxectonos/corpus_dominio_periodistico
Future updates, corrections, and extended releases of the corpus will be primarily made available through the Hugging Face repository. This Zenodo record is kept for archival and citation purposes, but users are encouraged to consult the Hugging Face version for the most recent release.
Corpus periodístico
Descripción general
El corpus periodístico reúne textos informativos procedentes de prensa digital en gallego, recopilados a partir de distintos medios y en el marco de proyectos y fases de adquisición diferentes. El conjunto representa el registro periodístico contemporáneo y está orientado a su uso en tareas de procesamiento del lenguaje natural.
El corpus incluye tanto colecciones previamente integradas en CorpusNÓS [1], con un esquema de datos simplificado, como conjuntos más recientes que conservan metadatos periodísticos completos extraídos directamente de fuentes estructuradas.
Fuentes
El corpus incluye textos procedentes de los siguientes medios de comunicación digitales en gallego:
Galicia é
Galicia Hoxe
Tempos Dixital
Xornal GL
A Nosa Terra
Nós Diario
Praza Pública
Código Cero
Colecciones sin metadatos
Una parte de los medios fue incorporada a CorpusNÓS en fases anteriores y se presenta en un formato JSON plano, con una estructura orientada principalmente al contenido textual. Cada documento incluye, de forma general, los siguientes campos:
identificador interno,
texto completo de la noticia,
número de palabras,
métricas automáticas de calidad (por ejemplo, pyplexity),
idioma.
Estos conjuntos priorizan la disponibilidad de texto limpio y homogéneo frente a la conservación de metadatos editoriales detallados. Estos archivos son los mismos que se pueden encontrar en CorpusNOS.
Corpus con metadatos
Los corpus correspondientes a Nós Diario y Praza Pública se obtuvieron directamente a partir de fuentes XML/HTML estructuradas. En estos casos, los documentos conservan información periodística detallada, entre la que se incluye:
identificadores de la noticia,
fechas de creación, publicación y revisión,
URL original,
titular y subtítulo,
categorías temáticas,
cuerpo de la noticia en texto plano y en HTML,
palabras clave,
referencia al archivo XML de origen.
Estos documentos se organizan jerárquicamente por año y mes de publicación, reflejando la estructura temporal original de los medios. Estos diarios también están incluidos en CorpusNOS, pero abarcan una cantidad menor de noticias. Los archivos en este corpus han pasado un proceso de extracción y limpieza diferente.
Formato y organización
Todos los textos del corpus periodístico se distribuyen en formato JSONL, con un documento por archivo o por línea.
El corpus presenta la siguiente estructura:
NOS_Corpus_Periodistico/├── nosdiario/│ └── corpus/│ ├── 2012/│ ├── 2013/│ ├── ...│ └── 2025/├── prazapublica/│ ├── 2012/│ ├── 2013/│ ├── ...│ └── 2025/├── gl_a_nosa_terra.jsonl├── gl_codigocero.jsonl├── gl_galicia_e.jsonl├── gl_galicia_hoxe.jsonl├── gl_tempos_dixital.jsonl└── gl_xornal.jsonl
Ejemplo entrada sin metadatos
{ "id": 41090, "text": "O roadshow da banda larga de Movistar recala en Arbo até o domingo. A iniciativa forma parte do Plan de Banda Larga da Xunta e permitirá o acceso a redes ultrarrápidas mediante fibra óptica (FTTH)...", "num_words": 544, "pyplexity_score": 685.0293946985031, "lang": "gl"}
Ejemplo entrada con metadatos
{ "metadata": { "news_item_id": "188941", "first_created": "20240131T195109+01:00", "first_published": "20240201T072219+01:00", "this_revision_created": "20240201T073632+01:00", "url": "https://www.nosdiario.gal/articulo/social/..." }, "news": { "headline": "A Xunta cancelou a misión para salvar a Casa da Galiza en Uruguai", "categories": ["social"], "body": "No mes de outubro de 2021, o Goberno do Uruguai ordenou a intervención pública do sanatorio da Casa da Galiza...", "body_html": "<p>No mes de outubro de 2021, o Goberno do Uruguai ordenou a intervención pública do sanatorio...</p>", "abstract": "Responsables da Xunta son acusados de manter silencio ante o fechamento da Casa da Galiza no Uruguai.", "keywords": [ "Alberto Núñez Feixoo", "Alfonso Rueda", "Xunta da Galiza", "Uruguai", "Casa da Galiza" ] }, "source_xml": "2024-02-01T062219__188941.xml", "images": [ { "url": "https://www.nosdiario.gal/media/...jpg", "caption": "Alberto Iglesias, último presidente da Casa da Galiza." } ]}
Procesamiento y limitaciones
El corpus ha sido generado mediante procesos automáticos de extracción, normalización y limpieza básica del texto. No se ha realizado corrección lingüística manual ni anotación semántica adicional.
Dado que los datos proceden de diferentes fuentes y momentos de recopilación, existen variaciones en la riqueza de metadatos, en la estructura de los documentos y en la calidad del texto, inherentes a los formatos originales y a los métodos de extracción utilizados.
Información adicional
| Corpus periodístico (gallego) | Nº de documentos | Nº de tokens (body y text) ||-------------------------------|------------------|--------------|| Total | 159.986 | 55.912.558 |
Licencia y condiciones de uso
Los textos incluidos en el corpus periodístico fueron obtenidos mediante acuerdos de cesión y colaboración con las entidades responsables de los contenidos o a través de fuentes que permiten su reutilización con fines de investigación. Parte de estos corpus ha sido previamente integrada en CorpusNÓS y se distribuye bajo las mismas condiciones.
El corpus constituye una obra derivada, resultado de procesos automáticos de extracción, limpieza y estructuración en formato JSONL, sin alteración del contenido semántico original. En todas las reutilizaciones se mantiene la atribución a las fuentes periodísticas originales.
La estructura del corpus y los procesos de procesamiento aplicados se distribuyen bajo la licencia:
Creative Commons Attribution 4.0 International (CC BY 4.0)
Referencias
[1] @inproceedings{de-dios-flores-etal-2024-corpusnos, title = ""{C}orpus{N{\'O}S}: A massive {G}alician corpus for training large language models"", author = ""de-Dios-Flores, Iria and Su{\'a}rez, Silvia Paniagua and P{\'e}rez, Cristina Carbajal and Outeiri{\~n}o, Daniel Bardanca and Garcia, Marcos and Gamallo, Pablo"", editor = ""Gamallo, Pablo and Claro, Daniela and Teixeira, Ant{\'o}nio and Real, Livy and Garcia, Marcos and Oliveira, Hugo Gon{\c{c}}alo and Amaro, Raquel"", booktitle = ""Proceedings of the 16th International Conference on Computational Processing of Portuguese - Vol. 1"", month = mar, year = ""2024"", address = ""Santiago de Compostela, Galicia/Spain"", publisher = ""Association for Computational Lingustics"", url = ""https://aclanthology.org/2024.propor-1.66"", pages = ""593--599"",}
--------------
Esta publicación del proyecto Desarrollo de Modelos ALIA está financiada por el Ministerio para la Transformación Digital y de la Función Pública y por el Plan de Recuperación, Transformación y Resiliencia – Financiado por la Unión Europea – NextGenerationEU
This work is funded by the Ministerio para la Transformación Digital y de la Función Pública - Funded by EU – NextGenerationEU within the framework of the project Desarrollo de Modelos ALIA.
提供机构:
Zenodo
创建时间:
2025-12-15



