five

abwabai/enrichment-v4

收藏
Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/abwabai/enrichment-v4
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: uuid dtype: large_string - name: name dtype: large_string - name: isic_group_name dtype: large_string - name: date dtype: large_string - name: amount dtype: float64 - name: balance dtype: float64 - name: description dtype: large_string - name: transaction_direction dtype: large_string - name: entity dtype: large_string - name: scraped_description dtype: large_string - name: entity_classification dtype: large_string - name: nature_of_business dtype: large_string - name: bank_system_classification dtype: large_string - name: bank_system_classification_clean dtype: large_string - name: bank_system_subclassification dtype: large_string - name: bank_system_subclassification_clean dtype: large_string - name: bank_system_annotator_reason dtype: large_string - name: bank_system_annotator_confidence dtype: large_string - name: relationship_classification dtype: large_string - name: relationship_classification_clean dtype: large_string - name: relationship_annotator_reason dtype: large_string - name: relationship_annotator_confidence dtype: large_string - name: accounting_classification dtype: large_string - name: accounting_classification_clean dtype: large_string - name: accounting_subclassification dtype: large_string - name: accounting_subclassification_clean dtype: large_string - name: accounting_annotator_reason dtype: large_string - name: accounting_annotator_confidence dtype: large_string - name: sheet_name dtype: large_string - name: is_augmented dtype: large_string - name: scraped_description_serp dtype: large_string - name: scraped_description_perplexity dtype: large_string - name: id dtype: large_string - name: account_number dtype: large_string - name: bank_name dtype: large_string - name: is_failed_transaction dtype: bool splits: - name: test num_bytes: 455520 num_examples: 373 download_size: 159692 dataset_size: 455520 configs: - config_name: default data_files: - split: test path: data/test-* ---
提供机构:
abwabai
搜集汇总
数据集介绍
main_image_url
构建方式
在金融交易数据分析领域,enrichment-v4数据集通过系统化的数据采集与标注流程构建而成。该数据集源自银行交易记录,涵盖了交易金额、余额、实体信息及多维度分类标签。构建过程中,不仅整合了原始交易描述,还引入了网络爬取信息与大型语言模型生成的补充内容,并通过专业标注者对交易关系、会计分类及银行系统类别进行人工审核与置信度评估,确保了数据质量的可靠性与标注的一致性。
特点
enrichment-v4数据集展现出多层次的标注体系与丰富的元数据特征。其核心在于提供了交易方向、实体分类、业务性质以及银行系统与会计科目的细粒度分类,并附有标注理由与置信度说明。数据集包含增强生成的描述字段,并标识了失败交易记录,支持对金融交易模式、风险识别与合规分析的多角度探究,为复杂金融场景下的机器学习任务奠定了结构化数据基础。
使用方法
该数据集适用于训练和评估金融领域的自然语言处理与分类模型。研究人员可将数据集按预设的训练、验证和测试划分加载,利用其丰富的特征字段,如交易描述、分类标签及增强文本,进行实体识别、交易分类或异常检测等任务。模型开发过程中,可依据标注置信度筛选高质量样本,或结合原始描述与爬取信息以提升模型对金融语义的理解能力,推动智能化金融分析工具的发展。
背景与挑战
背景概述
Enrichment-v4数据集聚焦于金融交易数据的多维度标注与语义增强,旨在深化对银行交易记录的理解与分析。该数据集由相关研究机构在近期构建,核心研究问题在于如何通过结构化标注与外部信息融合,提升交易描述的语义丰富度,从而支持金融领域的实体分类、关系识别与会计科目映射等任务。其影响力体现在为金融自然语言处理与智能审计提供了高质量的基准数据,推动了交易数据标准化与自动化处理的发展。
当前挑战
该数据集致力于解决金融交易分类与实体关系解析中的语义模糊性与领域知识依赖等挑战,具体包括交易描述简略导致的分类困难、实体名称歧义引发的关联错误,以及会计规则差异带来的标注不一致问题。在构建过程中,挑战主要源于多源数据融合的复杂性,例如网络爬取信息的噪声过滤、人工标注的主观偏差协调,以及跨银行系统分类体系的映射与标准化,这些因素均对数据质量与一致性提出了较高要求。
常用场景
衍生相关工作
基于enrichment-v4数据集,衍生了一系列经典研究工作,包括基于深度学习的交易分类模型、实体链接算法以及多任务学习框架的开发。这些工作不仅提升了金融数据处理的自动化水平,还为构建更复杂的金融知识图谱和智能决策系统奠定了基础,推动了金融科技领域的创新与实践。
数据集最近研究
最新研究方向
在金融交易数据分析领域,enrichment-v4数据集凭借其丰富的标注特征,如实体分类、关系分类和会计分类,正推动着智能金融风控与自动化审计的前沿探索。当前研究聚焦于利用该数据集训练多任务学习模型,以同时识别交易中的异常行为、实体关联网络及合规性风险,这得益于其详尽的银行系统与关系注释信息。随着全球金融监管趋严和反洗钱需求的提升,该数据集为开发可解释的AI系统提供了关键支持,助力金融机构实现实时监控与精准决策,从而在防范金融犯罪和提升运营透明度方面具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作