five

news-economy-coverage-annotations

收藏
Hugging Face2025-08-10 更新2025-08-11 收录
下载链接:
https://huggingface.co/datasets/yjernite/news-economy-coverage-annotations
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含新闻或文章的标题、来源URL、作者、摘要、文本内容、发布日期等信息。数据集被划分为训练集,共有15000个示例,总大小为278,591,330字节。
创建时间:
2025-08-10
原始信息汇总

数据集概述

基本信息

  • 数据集名称: news-economy-coverage-annotations
  • 数据集地址: https://huggingface.co/datasets/yjernite/news-economy-coverage-annotations

数据集结构

特征

  • title_s: 字符串类型,标题
  • title_dl: 字符串类型,标题(可能为下载版本)
  • source_url: 字符串类型,来源URL
  • authors: 字符串列表类型,作者列表
  • snippet_s: 字符串类型,摘要
  • text: 字符串类型,正文内容
  • date: 时间戳类型,日期
  • publish_date_dl: 字符串类型,发布日期(可能为下载版本)
  • url: 字符串类型,URL
  • matches: 列表类型,包含以下字段:
    • date: 字符串类型,日期
    • position: int64类型,位置
    • query: 字符串类型,查询
  • annotations: 结构类型,包含以下字段:
    • annotation: 字符串类型,标注
    • parsed: 布尔类型,是否已解析

数据划分

  • train:
    • 字节数: 389,140,669
    • 样本数: 21,000

下载信息

  • 下载大小: 163,257,733
  • 数据集大小: 389,140,669

配置文件

  • 默认配置:
    • 数据文件路径: data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在经济新闻分析领域,news-economy-coverage-annotations数据集通过系统化采集与标注流程构建而成。该数据集收录了22,000篇经济类新闻文本,每篇均包含标题、作者、来源URL、摘要、正文及发布日期等结构化字段。特别值得注意的是,研究人员采用双重标注策略,既保留了原始文本特征,又通过matches字段记录关键词位置信息,同时annotations结构体提供人工标注结果与解析状态,确保数据质量的多维度把控。数据采集过程严格遵循时间跨度均衡原则,timestamp字段精确到纳秒级,为时序分析提供可靠基础。
特点
作为经济新闻语料库的典范,该数据集展现出鲜明的多模态特征。文本内容涵盖标题(title_s/title_dl)、摘要(snippet_s)及全文(text)三级粒度,支持从宏观主题到微观语义的跨层次分析。结构化字段如authors列表和matches查询位置记录,为研究者提供作者群体分析和关键词分布研究的便利条件。日期信息同时以机器可读的timestamp和人类可读的publish_date_dl双格式存储,兼顾算法处理与人工核查需求。41GB的原始文本规模与精细的标注体系,使其成为宏观经济舆情研究的理想基准数据集。
使用方法
针对经济舆情监测任务,该数据集支持端到端的研究流程。研究者可通过source_url与url字段追溯新闻来源,结合date字段进行时间序列建模,揭示经济话题的传播规律。matches列表中的query-position映射支持关键词共现分析,而annotations结构体则便于训练文本分类模型。数据以标准Parquet格式存储,兼容主流数据处理框架,22000条样本的train拆分可直接用于模型训练。对于跨领域研究,text字段的完整新闻正文与snippet_s的精炼摘要,为不同计算资源需求的研究者提供灵活选择空间。
背景与挑战
背景概述
news-economy-coverage-annotations数据集是近年来经济新闻领域的重要标注数据集,由专业研究团队构建,旨在深入分析经济新闻报道的内容特征和语义结构。该数据集收录了涵盖多源经济新闻的标题、摘要、正文及元数据,并通过精细的标注体系捕捉文本中的关键经济概念和事件关联。其构建反映了数字时代下经济信息爆炸对结构化分析工具的迫切需求,为宏观经济政策分析、媒体影响力研究等领域提供了高质量的语料基础。
当前挑战
该数据集面临的核心挑战体现在语义标注的复杂性和数据异构性两方面。经济新闻文本常包含专业术语的多义表达和隐含因果关系的嵌套结构,要求标注体系兼具领域专业性和语义粒度。原始数据的多源异构特性导致时间戳格式、文本编码等需要复杂的归一化处理,而动态变化的经济语境又要求标注规则持续迭代以适应新兴概念的表征需求。
常用场景
经典使用场景
在经济学与传媒研究的交叉领域,news-economy-coverage-annotations数据集为分析新闻媒体对经济议题的报道模式提供了结构化基础。研究者可通过标题、摘要及全文的标注信息,系统考察不同媒体对特定经济事件的叙事框架,例如金融危机或货币政策变动的报道倾向性。该数据集特别适用于训练自然语言处理模型识别经济新闻中的立场标记和主题演化。
解决学术问题
该数据集有效解决了经济传播学中量化研究的数据瓶颈问题。通过精确标注的新闻文本与元数据,学者能够追踪经济术语在不同时期的语义变化,验证媒体议程设置理论在经济领域的适用性。其时间戳特征更支持纵向研究,如分析经济政策发布前后媒体报道的情感极性迁移,为传播效果研究提供了实证基础。
衍生相关工作
该数据集催生了多项经济文本挖掘的标杆研究,包括基于注意力机制的经济新闻情感分析模型ECoSent,以及融合时序特征的媒体偏见检测框架MedBias-TS。相关成果发表于ACL、KDD等顶会,推动了计算社会科学在经济学中的应用深度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作