five

ahmdjlt/available_world_outlets

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/ahmdjlt/available_world_outlets
下载链接
链接失效反馈
官方服务:
资源简介:
一个精心整理的全球832个正在运营的新闻/媒体机构列表,这些机构已验证在线且在抓取日期前90天内发布了最新文章。数据集来源于一个包含1,451个机构的初始列表,经过筛选后保留了可访问、返回HTML并显示最近发布日期的机构。数据集包含国家、地区、机构名称、主页URL、最新文章时间戳和状态等列。文件格式包括CSV和Parquet两种。

A curated list of 832 working news/media outlets worldwide, verified to be online and publishing recent articles (latest article within 90 days as of the scrape date). Compiled from a starting list of 1,451 outlets across all countries. Each URL was fetched and inspected for article-publication metadata. Only outlets reachable, returning HTML, and showing a recent publication date are included. The dataset includes columns such as Country, Region, Outlet, URL, Latest Article, and Status. Files are available in CSV and Parquet formats.
提供机构:
ahmdjlt
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自对全球范围内1,451家新闻媒体网站的系统性搜集与筛选。构建过程中,每个候选网站的URL均被逐一抓取并解析,通过提取Open Graph、JSON-LD或<time>标签等元数据,识别其文章发布信息。仅保留那些能够成功访问、返回有效HTML内容,且最近一篇发布于数据采集日期90天以内的活跃媒体,最终凝练出832家经严格验证的新闻机构。
使用方法
用户可通过Hugging Face的datasets库便捷加载该资源,调用`load_dataset("ahmdjlt/available_world_outlets")`即可获取训练集,支持一键访问完整媒体列表。返回的字典结构清晰,每行记录包含国家、地区、名称、主页链接及最新文章时戳等信息,便于直接用于新闻覆盖度分析、地域传媒生态对比或自然语言处理任务中的数据源选取。
背景与挑战
背景概述
在数字传媒与新闻资讯领域,全球新闻媒体的时效性与可访问性对学术研究、舆情监测及多语种信息挖掘至关重要。available_world_outlets数据集由研究人员于近期创建,汇集了来自世界各地的832家经核验的活跃新闻媒体。该数据集以全球新闻机构的在线状态与最新文章发布时间为核心筛选标准,旨在解决传统媒体列表因链接失效或内容僵化而导致的样本偏差问题。数据涵盖六大洲的媒体,记录了国家、地区、机构名称、主页URL及最新文章时间戳等关键字段,为地理新闻学、跨文化传播及媒体覆盖率研究提供了可靠且可复现的基础资源,其CC BY 4.0许可进一步促进了开放科学协作。
当前挑战
该数据集所应对的领域核心挑战在于新闻媒体在线活跃度的动态监测与质量校准。全球媒体中大量网站存在链接失效、内容更新缓慢或元数据解析失败等问题,传统静态列表难以真实反映当前信息生态。构建过程中,研究人员需从初始1451个候选媒体中,通过自动化爬取与元数据抽取技术,逐一验证URL可达性、HTML解析完整性,并利用Open Graph、JSON-LD及HTML时间标签检测最新文章日期,剔除90天内无新内容的媒体。这一过程面临多语言网页结构差异、反爬虫机制、动态渲染页面处理等技术瓶颈,最终仅保留832家符合严格标准的活跃媒体,确保了数据集的时效性与权威性。
常用场景
经典使用场景
在全球新闻传播与媒体研究领域,精准获取当前活跃的新闻媒体名录是开展跨国比较研究的基础。available_world_outlets数据集应运而生,它精心整理了832个经严格验证、仍持续更新文章的世界各地新闻媒体机构信息。该数据集最经典的使用场景是为新闻地理学、国际传播格局以及媒体多样性分析提供可靠的抽样框架,研究者可据此描绘全球新闻媒体的地域分布、活跃程度与信息生产节奏,避免了传统手动搜集或依赖过时名录的局限。
解决学术问题
该数据集精准回应了新闻传播学中关于全球媒体生态的可量化研究困境,即在缺乏统一、实时更新的媒体名录时,跨国或跨地区的新闻内容分析、媒体覆盖范围评估以及媒介系统对比研究往往因样本偏差而备受质疑。available_world_outlets通过爬取、验证与时效性标注,为学者提供了无偏的活跃媒体抽样池,有力支撑了关于新闻同质化、区域性信息流动模式以及全球媒体权力结构等议题的实证探索,显著提升了相关研究的可重复性与结论的外部效度。
实际应用
在实际应用中,该数据集可作为新闻聚合平台、媒体监测服务及舆情分析系统的底层数据基础设施。通过接入其中包含的URL与最新文章时间戳,企业和机构能够高效构建覆盖全球的新闻源列表,实时追踪不同地区热点事件的媒体响应,或为信息推荐算法提供多样化的内容来源。此外,新闻机构亦可利用该数据集评估自身在全球报道网络中的覆盖盲区,辅助制定国际化布局策略,从而在信息爆炸时代提升决策的数据驱动力。
数据集最近研究
最新研究方向
在全球信息生态日益复杂且虚假新闻泛滥的背景下,available_world_outlets数据集为新闻可信度评估与媒体多样性研究提供了宝贵的基础资源。该数据集精选了832个经实时验证的活跃新闻媒体,覆盖全球各国与区域,严格检测其在线状态与最新文章时效,确保了数据的高质量与时效性。前沿研究方向聚焦于利用该数据集构建新闻来源可靠性图谱、开展跨区域媒体覆盖范围分析,以及训练新闻聚合与推荐系统中的源头筛选模型。其意义在于为学术界与产业界提供了一套可复现的标准化媒体清单,推动了自动化新闻验证与媒体生态监测的实证研究,对应对信息战与优化舆论分析工具具有重要价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作