nlpaueb/finer-139
收藏Hugging Face2022-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nlpaueb/finer-139
下载链接
链接失效反馈官方服务:
资源简介:
FiNER-139数据集包含110万个句子,这些句子来自美国上市公司的年度和季度报告,并使用139种实体类型进行标注。与常见的实体识别任务不同,FiNER-139专注于数字标记,其正确的标签主要依赖于上下文而非标记本身。该数据集旨在促进金融领域的XBRL标签自动标注研究,以提高财务报告的透明度和处理效率。数据集是单语言的,仅包含英语内容。
The FiNER-139 dataset contains 1.1 million sentences sourced from the annual and quarterly reports of U.S. publicly listed companies, annotated with 139 distinct entity types. Unlike standard named entity recognition (NER) tasks, FiNER-139 focuses on numerical tagging, where correct labeling primarily relies on contextual information rather than the tokens themselves. This dataset is designed to facilitate research on automatic XBRL tagging in the financial sector, with the goal of enhancing the transparency and processing efficiency of financial reports. It is a monolingual dataset that only includes English content.
提供机构:
nlpaueb
原始信息汇总
数据集概述
数据集名称
- FiNER-139
数据集摘要
- FiNER-139 包含1.1M个句子,这些句子是从美国公开交易公司的年度和季度报告中提取的,并使用eXtensive Business Reporting Language (XBRL) 标签进行了标注。该数据集专注于数字令牌,标签主要依赖于上下文而非令牌本身。
支持的任务
- 结构预测
- 命名实体识别
- 实体提取
- 引入XBRL标签作为新的实体提取任务,用于金融领域。
语言
- 英语
数据集结构
- 数据实例:每个实例包含一个ID、令牌列表和NER标签列表。
- 数据字段:包括ID、令牌和NER标签。
- 数据分割:训练集900,384个实例,验证集112,494个实例,测试集108,378个实例。
数据集创建
- 来源数据:数据集来自大约10k份年度和季度英语报告,这些报告是从美国证券交易委员会的EDGAR系统下载的。
- 标注过程:所有实例由专业审计师标注。
附加信息
- 许可证:CC-BY-SA-4.0
- 引用信息:使用此数据集时,应引用Loukas等人(2022)的论文。
搜集汇总
数据集介绍

构建方式
在金融文本分析领域,FiNER-139数据集的构建体现了对财务报告结构化处理的深度探索。该数据集源自美国证券交易委员会(SEC)的EDGAR系统,涵盖了2016年至2020年间约一万份上市公司年度与季度报告的英文文本。通过正则表达式从财务报表项目中提取文本注释,并采用IOB2标注方案区分实体边界,最终由专业审计人员依据XBRL(可扩展商业报告语言)标准进行标注,聚焦于139个高频实体类型,确保了标注的权威性与一致性。
特点
FiNER-139的显著特点在于其庞大的实体类型体系和针对数字令牌的上下文依赖标注。与传统的命名实体识别任务不同,该数据集包含139种实体类型,扩展了金融领域实体提取的粒度。其核心创新在于强调数字令牌的语境化理解,实体标签的分配不依赖于令牌本身,而是由周围的文本语境决定,这模拟了真实财务报告中数值信息的复杂语义关联,为模型提供了更丰富的学习挑战。
使用方法
该数据集主要用于支持XBRL自动标注任务的研究,可应用于命名实体识别和结构预测等自然语言处理任务。使用者可通过Hugging Face的datasets库直接加载,数据以JSON格式组织,包含令牌序列和对应的整数标签。为便于使用,标签名称可通过数据集特征的names属性映射获取。数据集已划分为训练集、验证集和测试集,支持模型训练、评估与测试的全流程,并可结合领域特定的预训练模型(如SEC-BERT系列)以提升金融文本理解性能。
背景与挑战
背景概述
在金融自然语言处理领域,可扩展商业报告语言(XBRL)的自动标注是提升财务信息处理效率的关键技术。FiNER-139数据集由雅典经济与商业大学自然语言处理小组于2022年创建,旨在解决上市公司财务报告中XBRL标签手动标注耗时且资源密集的难题。该数据集从美国证券交易委员会的EDGAR系统中提取了约一万份英文年度与季度报告,涵盖2016年至2020年间的数据,并由专业审计师标注了139种高频实体类型。其核心研究问题聚焦于如何通过自动化方法对财务报告中的数值型实体进行精准识别与分类,从而推动金融领域实体抽取任务的标准化与智能化发展,为后续研究提供了重要的基准资源。
当前挑战
FiNER-139数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域问题上,XBRL标注任务需处理远超传统命名实体识别规模的标签体系,涵盖139种实体类型,且侧重于上下文依赖的数值型实体识别,这要求模型具备深层次的语义理解与领域知识融合能力。构建过程中,数据集源自专业审计师标注的财务报告,虽保证了权威性,但标注一致性仍存在细微差异;同时,从海量XBRL标签中筛选高频类型并采用IOB2标注方案,需克服数据噪声与结构复杂性,确保标注质量与模型泛化性能之间的平衡。
常用场景
经典使用场景
在金融自然语言处理领域,FiNER-139数据集为XBRL标签自动标注任务提供了关键资源。该数据集源自美国上市公司年报与季报,包含110万句标注了139种实体类型的文本,其核心应用场景在于训练和评估模型对财务报告中数值型实体的精准识别能力。通过将复杂的财务语境转化为结构化标签,研究者能够构建自动化系统,以替代传统依赖专业审计师手动标注的繁琐流程,从而显著提升金融文档处理的效率与准确性。
衍生相关工作
围绕FiNER-139,研究者已衍生出多项经典工作,其中最突出的是SEC-BERT系列预训练模型的开发。这些模型针对金融文本特性进行优化,如SEC-BERT-NUM统一处理数字标记,SEC-BERT-SHAPE引入数字形态伪标记,有效提升了金融领域下游任务的性能。此外,该数据集亦催生了关于跨文档实体链接、财务风险预测模型以及低资源环境下领域自适应方法的研究,进一步拓展了金融自然语言处理的技术前沿与应用生态。
数据集最近研究
最新研究方向
在金融自然语言处理领域,FiNER-139数据集的推出标志着对可扩展商业报告语言(XBRL)自动标注研究的深化。该数据集以其庞大的139种实体类型标签集合,为金融文本中的数值实体识别任务设立了新的基准。前沿研究聚焦于利用预训练模型如SEC-BERT系列,通过领域自适应技术提升对财务报告中复杂数值上下文的解析能力。当前热点事件包括结合大语言模型进行少样本学习,以应对XBRL标签的动态扩展需求,同时探索跨文档的实体关联分析,旨在增强金融风险预警与合规审计的自动化水平。这些进展不仅推动了金融科技中信息提取技术的革新,也为提升资本市场透明度提供了关键技术支持。
以上内容由遇见数据集搜集并总结生成



