five

324

收藏
NIAID Data Ecosystem2026-05-02 收录
下载链接:
https://zenodo.org/record/15190054
下载链接
链接失效反馈
官方服务:
资源简介:
Descripció del dataset: El dataset “Notícies del 324.cat – Any 2024” recull totes les notícies publicades al portal 324.cat durant tot l’any 2024. Cada registre del dataset representa una notícia i inclou, com a mínim, els següents camps: Titular: El títol original de la notícia, tal com apareix al portal. Resum: Un breu text o subtítol que contextualitza la notícia, quan està disponible. Secció: La categoria o tema principal de la notícia (per exemple, Política, Societat, Cultura, etc.), extreta a partir de l’estructura de l’horari de publicació al web. Data (Data/Hora): La data i hora de publicació, normalitzada en format ISO (AAAA-MM-DD HH:MM:SS), la qual garanteix una correcta ordenació cronològica. Dia_setmana: El dia de la setmana derivat de la data de publicació (dilluns, dimarts, …, diumenge), útil per a anàlisis de tendències informatives. Longitud: Un valor numèric que indica la quantitat de paraules del cos complet de la notícia, facilitant la distinció entre notícies breus i reportatges més llargs. Aquest conjunt de dades ha estat obtingut mitjançant un procés automatitzat de web scraping, que ha inclòs la navegació pel web amb Selenium, la extracció d’enllaços d’articles i la posterior validació i neteja de la informació obtinguda amb BeautifulSoup i funcions auxiliars. El dataset proporciona una visió completa de l’activitat informativa d’un any sencer en un mitjà català de reconeixement, resultant una eina útil per a anàlisis de tendències, estudis lingüístics o recerca en ciències de la comunicació.
创建时间:
2025-04-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作