324
收藏NIAID Data Ecosystem2026-05-02 收录
下载链接:
https://zenodo.org/record/15190054
下载链接
链接失效反馈官方服务:
资源简介:
Descripció del dataset:
El dataset “Notícies del 324.cat – Any 2024” recull totes les notícies publicades al portal 324.cat durant tot l’any 2024. Cada registre del dataset representa una notícia i inclou, com a mínim, els següents camps:
Titular: El títol original de la notícia, tal com apareix al portal.
Resum: Un breu text o subtítol que contextualitza la notícia, quan està disponible.
Secció: La categoria o tema principal de la notícia (per exemple, Política, Societat, Cultura, etc.), extreta a partir de l’estructura de l’horari de publicació al web.
Data (Data/Hora): La data i hora de publicació, normalitzada en format ISO (AAAA-MM-DD HH:MM:SS), la qual garanteix una correcta ordenació cronològica.
Dia_setmana: El dia de la setmana derivat de la data de publicació (dilluns, dimarts, …, diumenge), útil per a anàlisis de tendències informatives.
Longitud: Un valor numèric que indica la quantitat de paraules del cos complet de la notícia, facilitant la distinció entre notícies breus i reportatges més llargs.
Aquest conjunt de dades ha estat obtingut mitjançant un procés automatitzat de web scraping, que ha inclòs la navegació pel web amb Selenium, la extracció d’enllaços d’articles i la posterior validació i neteja de la informació obtinguda amb BeautifulSoup i funcions auxiliars. El dataset proporciona una visió completa de l’activitat informativa d’un any sencer en un mitjà català de reconeixement, resultant una eina útil per a anàlisis de tendències, estudis lingüístics o recerca en ciències de la comunicació.
创建时间:
2025-04-10



