GRAB
收藏arXiv2025-09-26 更新2025-09-30 收录
下载链接:
https://github.com/Sunnie-Li/GRAB-Benchmark
下载链接
链接失效反馈官方服务:
资源简介:
GRAB是一个用于评估金融风险分类的无监督主题模型的公共基准。它包含来自8247份文件的161.38万个句子,并且没有手动注释,而是通过结合FinBERT标记注意力、YAKE关键词信号和分类意识搭配匹配产生的跨度接地句子标签。标签锚定在风险分类法中,将193个术语映射到五个宏观类别下的21个细粒度类型;21个类型指导弱监督,而评估则是在宏观层面报告的。GRAB通过固定的数据集分割和鲁棒的指标(准确性、宏观F1、主题BERT分数和基于熵的有效主题数)统一了评估。该数据集、标签和代码使经典、基于嵌入、神经和混合主题模型在金融风险披露方面具有可重复性和标准化的比较。
GRAB is a public benchmark for evaluating unsupervised topic models for financial risk classification. It contains 1.6138 million sentences from 8,247 documents. Without manual annotations, its span-grounded sentence labels are generated by combining FinBERT token attention, YAKE keyword signals, and classification-aware collocation matching. The labels are anchored in a risk taxonomy, mapping 193 terms to 21 fine-grained types under five macro-categories; the 21 types are used to guide weak supervision, while evaluations are reported at the macro level. GRAB unifies model evaluation via fixed dataset splits and robust metrics including accuracy, macro-F1, TopicBERT score, and entropy-based effective topic number. This dataset, its accompanying labels and code, enable reproducible and standardized comparison of classical, embedding-based, neural, and hybrid topic models for financial risk disclosure.
提供机构:
爱丁堡大学
创建时间:
2025-09-26
搜集汇总
数据集介绍

构建方式
在金融监管文本分析领域,GRAB数据集的构建采用了创新的弱监督方法。该数据集从标准普尔500公司的10-K年报中提取风险因素章节,涵盖2001至2025年间的8,247份文件,共包含161万条句子。通过融合FinBERT的注意力机制、YAKE关键短语识别和基于风险分类词典的匹配技术,实现了无需人工标注的句子级标签生成。具体流程包括对金融文本进行轻量级预处理,结合词汇匹配与语义回退策略,最终将193个风险术语映射到21个细粒度子类别,并聚合为五大宏观风险类别。
特点
GRAB数据集的显著特征体现在其专业性与系统性设计。作为首个面向金融风险分类的无监督主题模型评估基准,它基于权威的Hofeditz风险分类体系构建,覆盖公司风险、市场风险、资本流动性风险等五大宏观类别。数据集采用严格的时间划分策略,确保训练集、验证集和测试集之间不存在数据泄露风险。其评估指标体系全面涵盖预测效用、主题质量和分配确定性三个维度,包括准确率、宏观F1值、主题BERTScore和基于信息熵的有效主题数,为模型性能提供了多角度衡量标准。
使用方法
在金融文本挖掘应用中,GRAB数据集提供了标准化的评估框架。研究人员可通过固定时间划分的数据集对各类主题模型进行公平比较,包括经典概率模型、嵌入空间模型和神经网络模型。使用流程首先需要将模型输出的主题分布与五大宏观风险类别进行对齐,然后分别计算预测效用指标和主题质量指标。数据集支持多标签评估设置,特别关注少数类别风险类型的识别性能,确保模型在长尾分布下的稳健性。所有评估代码和预处理脚本均已开源,保障了研究结果的可复现性。
背景与挑战
背景概述
在金融监管领域,上市公司年度10-K文件中风险披露的自动分析对投资决策与合规监管具有关键意义。GRAB数据集由爱丁堡大学研究团队于2025年提出,聚焦于无监督主题发现技术在金融风险分类中的应用。该数据集基于S&P 500公司2001至2025年间8,247份10-K文件的风险因素章节,构建了包含161万句语料的标注体系,通过融合FinBERT注意力机制、YAKE关键短语识别与风险分类词典匹配,实现了对21个细粒度风险子类别的弱监督标注。该研究填补了金融领域无监督主题模型评估基准的空白,为风险因素自动提取提供了标准化评估框架。
当前挑战
在金融风险分类领域,传统方法面临领域专业术语理解不足、法律文本中模板化语言干扰等核心挑战。GRAB构建过程中需解决三大技术难题:其一是金融多词术语的边界识别问题,需通过跨连字符与空格的弹性匹配机制捕捉专业表达;其二是注意力信号与关键短语的融合优化,需平衡词汇特征与上下文语义的贡献权重;其三是长尾风险类别的覆盖不足,需通过层次化分类体系增强低频但关键风险类型的识别能力。这些挑战共同推动了金融文本弱监督标注技术的创新突破。
常用场景
经典使用场景
在金融监管文本分析领域,GRAB数据集为无监督主题发现提供了标准化评估框架。该数据集通过整合来自8,247份10-K文件中160万条风险披露语句,构建了基于风险分类体系的弱监督标注系统。研究人员可利用该数据集对各类主题模型在金融风险分类任务上的表现进行系统性评估,特别适用于分析法律文本中嵌套的多层次风险语义结构。
实际应用
在金融实务领域,GRAB数据集支撑着风险监控系统的智能化升级。投资机构可利用该数据集训练的模型自动解析上市公司风险披露文件,实时识别市场风险、信用风险等关键类别。监管机构则能借助该技术实现对大规模申报材料的自动化风险筛查,显著提升对系统性金融风险的早期预警能力,为投资决策和监管合规提供数据驱动的分析工具。
衍生相关工作
基于GRAB数据集的评估框架,衍生出多个经典研究方向。在模型架构方面,推动了CTM等上下文感知主题模型在金融领域的适配优化;在评估方法上,催生了Topic BERTScore等语义一致性指标与风险分类准确率的联合评估范式;在应用层面,激发了面向长尾风险类别识别的增强型主题建模方法,为金融文本的细粒度风险解析开辟了新的技术路径。
以上内容由遇见数据集搜集并总结生成



