ravikiranoffl/HEDA
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ravikiranoffl/HEDA
下载链接
链接失效反馈官方服务:
资源简介:
HEDA(Huggingface电子数据存档)是Project VEDA的深层存储库,专门用于永久存储从30多家全球和区域新闻机构提取的1000字以上的原始文本。数据通过异步NLP抓取工具Trafilatura提取,并以JSON格式存储在Hugging Face数据集中,使用MD5哈希值(基于清洁URL生成)作为键,原始文本作为值。数据集支持英语和泰卢固语,遵循MIT许可,适用于开源情报(OSINT)、新闻、档案等领域的研究和应用。
HEDA (Huggingface Electronic Data Archive) is the deep-storage vault for Project VEDA, permanently storing 1000+ word raw text extractions from over 30 global and regional news syndicates. The data is extracted using the asynchronous NLP scraping tool Trafilatura and stored in Hugging Face Datasets in JSON format, with MD5 hashes (generated from clean URLs) as keys and raw extracted texts as values. The dataset supports English and Telugu, is licensed under MIT, and is suitable for research and applications in areas such as OSINT, news, and archives.
提供机构:
ravikiranoffl
原始信息汇总
根据提供的数据集详情页HTML内容,以下是关于 HEDA 数据集的总结:
数据集概述:HEDA
- 数据集名称:HEDA(Huggingface Electronic Data Archive)
- 维护者:ravikiranoffl
- 许可证:MIT
- 语言:英语、泰卢固语
- 数据集大小:10K 到 100K 条记录
- 标签:OSINT、新闻、档案、实时、印度、全球
- 下载量(上月):180 次
- 总文件大小:105 MB
数据集描述
HEDA 是 Project VEDA 的深度存储库,作为一个大规模、被动的数据仓库运行。它永久存储从全球 30 多个新闻联合体提取的原始文本(1000 字以上)。
架构
- 命令引擎:VEDA(Python 3.12 / GitHub Actions)
- 深度提取:Trafilatura(异步 NLP 抓取)
- 仓库存储:HF Mirror 数据集(JSON via Git LFS)
- 抓取频率:每 2 小时(自主运行)
数据格式
- 存储位置:
data/目录 - 文件命名规则:
YYYY-MM-DD-deep.json - 数据结构:轻量级字典,MD5 哈希(基于清理后的 URL 生成)映射到原始提取文本。
数据结构示例:
json { "md5_article_hash_id": "Raw 1000+ word text extracted directly from the DOM, stripped of ads, tracking, and bloat..." }
数据集子集与分割
- 子集(Subset):default
- 分割(Split):train(训练集)
注意事项
- 数据集的查看器当前无法加载该分割,因为存在数据类型转换错误(列名不匹配)。
搜集汇总
数据集介绍

构建方式
HEDA数据集是为Project VEDA量身打造的高容量数据存储库,其构建过程深度融合了自动化的深度信息抽取与持久化存储技术。依托于Python 3.12构建的命令引擎,借助Trafilatura非对称网络爬虫工具,系统每隔两小时便自主执行一次全球新闻源的全域扫描,从逾三十家国际与区域性新闻联合体中提取超过千词的原始文本内容。这些文本经过清洗与去重,去除广告、追踪代码及冗余信息,最终以MD5哈希值为键,对应纯文本内容的轻量级字典结构,封装为JSON格式文件并存储于data/目录下,遵循YYYY-MM-DD-deep.json的命名规则,由Hugging Face Datasets通过Git LFS进行永久托管。
特点
HEDA数据集的核心特质在于其极致的实时性与海量数据持久化能力。作为VEDA系统的深层存储仓库,它专注于容纳高度浓缩的原始情报文本,每条记录均源于完整的DOM树解析,保留了1000字以上的详尽叙述。数据覆盖范围横跨全球,采集频率稳定在两小时一次,确保了新闻内容的时效性与连续性。其存储架构采用MD5哈希索引,实现了对独立文章的唯一标识与高效检索,避免了内容冗余,同时以JSON格式维持了数据结构的简洁性与跨平台兼容性,为后续的时序分析与知识挖掘提供了坚实的原始素材基础。
使用方法
使用HEDA数据集时,研究者可直接通过Hugging Face Datasets库便捷加载JSON格式的存档数据。数据以每日为单位聚合,文件名中的日期标记(如YYYY-MM-DD-deep.json)便于按时间维度进行切片与过滤。加载后,每条记录均由MD5哈希键与原始长文本值构成,适用于自然语言处理中的文本分类、事件抽取、主题建模及舆情分析等下游任务。由于数据源自公开的新闻联合体,使用时需遵循MIT开源许可,并在分析过程中注意保持对原始出处与时效性的合理引用,以保障研究的可重复性与科学性。
背景与挑战
背景概述
HEDA(Huggingface Electronic Data Archive)数据集由Project VEDA团队创建,旨在构建一个自主、实时的开放源情报(OSINT)数据仓库。该数据集初始发布于HuggingFace平台,专注于从全球超过30家新闻机构中异步抓取并存储超过1000词的原始文本内容,时间粒度达每两小时一次。核心研究问题在于如何高效地存储海量、高频的新闻文本数据,以支持后续的时序分析、情报挖掘等任务。HEDA作为VEDA系统的深层存储组件,对推动自动化新闻归档、实时信息检索及跨语言(英语与泰卢固语)NLP研究具有潜在影响力,为开源情报领域提供了一种可复现的数据基础设施范式。
当前挑战
HEDA数据集面临的主要挑战包括:1) 领域问题挑战:新闻文本的冗余结构(如广告、追踪代码)需要高效的解耦与清洗,而多语种(英语、泰卢固语)内容增加了文本标准化的难度;同时,实时更新要求系统具备高容错性和低延迟处理能力。2) 构建过程挑战:从超30家新闻源异步爬取过程中,需应对网站反爬机制、URL失效及内容重复等异构性问题;存储方面,采用Git LFS管理大规模JSON文件时,版本控制与数据完整性间的平衡成为技术难点,尤其在每两小时高频更新下,需确保数据不丢失且可追溯。
常用场景
经典使用场景
HEDA数据集作为Project VEDA的深度存储核心,专为开源情报(OSINT)领域设计,其经典使用场景在于构建大规模、多源新闻档案库。通过每两小时自动抓取全球30余家新闻媒体的原始文本,数据集以海量、非结构化文本形式呈现,便于研究者进行跨时间、跨地域的新闻趋势分析、事件追溯及语料库建设。其MD5哈希索引结构支持高效的去重检索,为实时情报监控和历史数据回溯提供了坚实的数据基础。
解决学术问题
HEDA数据集解决了学术研究中多源新闻数据获取碎片化、存储非标准化及实时性不足的难题。它提供了从全球新闻网站同步提取的、超过千字的原始文本,支持自然语言处理(NLP)领域的大规模语料分析、事件聚类、主题建模及跨语言研究。该数据集促进了新闻传播学、政治舆情感知及计算社会科学中的实证研究,其开放许可(MIT)鼓励可复现的科学探索。
衍生相关工作
HEDA数据集衍生了一系列经典工作,包括基于其文本的高效NLP预处理流程、与VEDA前端联动的实时仪表盘开发,以及利用Trafilatura进行异步抓取的可扩展架构设计。研究者还基于此构建了领域特化的事件图谱,或将其与情感分析模型结合,挖掘跨语言的舆论传播规律。这些工作共同推动了OSINT领域从手动收集向自动化、轻量化方向的转变。
以上内容由遇见数据集搜集并总结生成



