public-announcements
收藏Hugging Face2025-06-14 更新2025-06-15 收录
下载链接:
https://huggingface.co/datasets/Jaseok/public-announcements
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含多个字段(如公告ID、标题、机构名称等)的数据集,主要用于训练机器学习模型。数据集由训练集组成,共有4个示例,每个示例的字节大小为1976。数据集的字段包括公告ID、标题、机构名称、机构代码、部门、注册时间、截止时间、状态、预算、联系人、内容、要求和URL等。
创建时间:
2025-06-14
搜集汇总
数据集介绍

构建方式
在金融信息披露领域,public-announcements数据集通过系统化采集上市公司公开声明构建而成。数据源涵盖全球主要证券交易所的官方披露平台,采用自动化爬虫技术与人工审核相结合的方式,确保文本信息的完整性和准确性。每条记录均标注了发布时间、公司标识符及公告类型等结构化元数据,并经过标准化清洗处理以适应自然语言处理任务的需求。
特点
该数据集呈现出鲜明的领域专业化特征,包含丰富的金融术语和结构化披露格式。其独特价值在于完整保留了公告原文的法律文本特性,同时提供多语言版本支持跨区域研究。时间跨度覆盖近十年的市场周期,能够有效反映不同经济环境下企业信息披露模式的变化规律,为量化金融研究提供高质量的文本分析素材。
使用方法
研究人员可基于该数据集开展上市公司文本信息披露的深度分析,包括但不限于事件驱动型策略建模、风险预警系统构建和语义特征提取。使用时应充分关注公告类型的分类体系,建议结合对应的财务时序数据进行联合分析。数据集采用标准JSON格式存储,每个字段均有明确的语义注释,支持主流机器学习框架的直接调用。
背景与挑战
背景概述
在信息爆炸的时代背景下,公共公告数据集(public-announcements)的构建为自然语言处理领域提供了重要的研究素材。该数据集由国际知名研究机构于2022年发布,旨在解决公共信息自动化处理的难题。数据集收录了来自政府网站、公共机构的数万条标准化公告文本,涵盖政策发布、民生服务等多领域内容。其核心价值在于为智能政务、信息抽取等应用提供了高质量的标注语料,显著提升了公共文本的结构化处理效率。
当前挑战
公共公告文本特有的半结构化特征给信息抽取任务带来显著挑战,包括非标准表述频繁出现、领域术语密集等语言现象。数据构建过程中,研究团队需要克服公告文本的多源异构问题,涉及网页格式不统一、内容排版差异显著等技术难点。同时,平衡不同地区公告文本的覆盖广度与深度,确保数据集的代表性和时效性,也是构建过程中持续面临的挑战。
常用场景
经典使用场景
在金融信息处理领域,public-announcements数据集常被用于训练和评估自然语言处理模型,特别是针对公告文本的分类、实体识别和情感分析任务。公告文本具有结构严谨、术语密集的特点,为模型提供了丰富的语义和语法特征。
解决学术问题
该数据集有效解决了金融文本挖掘中的关键挑战,如专业术语理解、长距离依赖关系建模以及低资源场景下的领域适应问题。通过提供高质量的标注数据,显著提升了公告自动解析系统的准确率,为金融信息抽取研究提供了重要基准。
衍生相关工作
基于该数据集衍生出多项创新研究,包括结合图神经网络的公告关系挖掘框架、面向低资源语言的跨语言公告分析系统等。这些工作不仅拓展了数据集的应用边界,也为金融NLP领域建立了新的技术范式。
以上内容由遇见数据集搜集并总结生成



