abwabai/enrichment-v4
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/abwabai/enrichment-v4
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: uuid
dtype: large_string
- name: name
dtype: large_string
- name: isic_group_name
dtype: large_string
- name: date
dtype: large_string
- name: amount
dtype: float64
- name: balance
dtype: float64
- name: description
dtype: large_string
- name: transaction_direction
dtype: large_string
- name: entity
dtype: large_string
- name: scraped_description
dtype: large_string
- name: entity_classification
dtype: large_string
- name: nature_of_business
dtype: large_string
- name: bank_system_classification
dtype: large_string
- name: bank_system_classification_clean
dtype: large_string
- name: bank_system_subclassification
dtype: large_string
- name: bank_system_subclassification_clean
dtype: large_string
- name: bank_system_annotator_reason
dtype: large_string
- name: bank_system_annotator_confidence
dtype: large_string
- name: relationship_classification
dtype: large_string
- name: relationship_classification_clean
dtype: large_string
- name: relationship_annotator_reason
dtype: large_string
- name: relationship_annotator_confidence
dtype: large_string
- name: accounting_classification
dtype: large_string
- name: accounting_classification_clean
dtype: large_string
- name: accounting_subclassification
dtype: large_string
- name: accounting_subclassification_clean
dtype: large_string
- name: accounting_annotator_reason
dtype: large_string
- name: accounting_annotator_confidence
dtype: large_string
- name: sheet_name
dtype: large_string
- name: is_augmented
dtype: large_string
- name: scraped_description_serp
dtype: large_string
- name: scraped_description_perplexity
dtype: large_string
- name: id
dtype: large_string
- name: account_number
dtype: large_string
- name: bank_name
dtype: large_string
- name: is_failed_transaction
dtype: bool
splits:
- name: test
num_bytes: 455520
num_examples: 373
download_size: 159692
dataset_size: 455520
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
---
提供机构:
abwabai
搜集汇总
数据集介绍

构建方式
在金融交易数据分析领域,enrichment-v4数据集通过系统化的数据采集与标注流程构建而成。该数据集源自银行交易记录,涵盖了交易金额、余额、实体信息及多维度分类标签。构建过程中,不仅整合了原始交易描述,还引入了网络爬取信息与大型语言模型生成的补充内容,并通过专业标注者对交易关系、会计分类及银行系统类别进行人工审核与置信度评估,确保了数据质量的可靠性与标注的一致性。
特点
enrichment-v4数据集展现出多层次的标注体系与丰富的元数据特征。其核心在于提供了交易方向、实体分类、业务性质以及银行系统与会计科目的细粒度分类,并附有标注理由与置信度说明。数据集包含增强生成的描述字段,并标识了失败交易记录,支持对金融交易模式、风险识别与合规分析的多角度探究,为复杂金融场景下的机器学习任务奠定了结构化数据基础。
使用方法
该数据集适用于训练和评估金融领域的自然语言处理与分类模型。研究人员可将数据集按预设的训练、验证和测试划分加载,利用其丰富的特征字段,如交易描述、分类标签及增强文本,进行实体识别、交易分类或异常检测等任务。模型开发过程中,可依据标注置信度筛选高质量样本,或结合原始描述与爬取信息以提升模型对金融语义的理解能力,推动智能化金融分析工具的发展。
背景与挑战
背景概述
Enrichment-v4数据集聚焦于金融交易数据的多维度标注与语义增强,旨在深化对银行交易记录的理解与分析。该数据集由相关研究机构在近期构建,核心研究问题在于如何通过结构化标注与外部信息融合,提升交易描述的语义丰富度,从而支持金融领域的实体分类、关系识别与会计科目映射等任务。其影响力体现在为金融自然语言处理与智能审计提供了高质量的基准数据,推动了交易数据标准化与自动化处理的发展。
当前挑战
该数据集致力于解决金融交易分类与实体关系解析中的语义模糊性与领域知识依赖等挑战,具体包括交易描述简略导致的分类困难、实体名称歧义引发的关联错误,以及会计规则差异带来的标注不一致问题。在构建过程中,挑战主要源于多源数据融合的复杂性,例如网络爬取信息的噪声过滤、人工标注的主观偏差协调,以及跨银行系统分类体系的映射与标准化,这些因素均对数据质量与一致性提出了较高要求。
常用场景
衍生相关工作
基于enrichment-v4数据集,衍生了一系列经典研究工作,包括基于深度学习的交易分类模型、实体链接算法以及多任务学习框架的开发。这些工作不仅提升了金融数据处理的自动化水平,还为构建更复杂的金融知识图谱和智能决策系统奠定了基础,推动了金融科技领域的创新与实践。
数据集最近研究
最新研究方向
在金融交易数据分析领域,enrichment-v4数据集凭借其丰富的标注特征,如实体分类、关系分类和会计分类,正推动着智能金融风控与自动化审计的前沿探索。当前研究聚焦于利用该数据集训练多任务学习模型,以同时识别交易中的异常行为、实体关联网络及合规性风险,这得益于其详尽的银行系统与关系注释信息。随着全球金融监管趋严和反洗钱需求的提升,该数据集为开发可解释的AI系统提供了关键支持,助力金融机构实现实时监控与精准决策,从而在防范金融犯罪和提升运营透明度方面具有深远意义。
以上内容由遇见数据集搜集并总结生成



