five

enrichment-v4

收藏
Hugging Face2026-04-12 更新2026-04-13 收录
下载链接:
https://huggingface.co/datasets/abwabai/enrichment-v4
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含金融交易记录的结构化数据集,主要用于交易分类和分析任务。数据集包含539个训练样本、116个验证样本和116个测试样本,总计771条记录。每条记录包含34个特征字段,包括交易唯一标识(uuid)、交易名称(name)、ISIC组名(isic_group_name)、日期(date)、金额(amount)、余额(balance)、描述信息(description)等基础字段,以及多个分类字段如交易方向(transaction_direction)、实体信息(entity)、银行系统分类(bank_system_classification)、关系分类(relationship_classification)、会计分类(accounting_classification)等。此外,还包含各类注释信息如注释原因(annotator_reason)和置信度(annotator_confidence)。数据集已划分为训练集、验证集和测试集,适用于金融交易分类、异常检测等机器学习任务。
创建时间:
2026-04-11
搜集汇总
数据集介绍
main_image_url
构建方式
在金融交易数据智能分析领域,enrichment-v4数据集通过系统化的数据采集与标注流程构建而成。该数据集源自真实的银行交易记录,涵盖了交易金额、余额、实体名称及描述等核心字段,并在此基础上引入了多维度的人工与系统标注。标注过程涉及对交易实体、关系及会计科目的精细分类,每一类别均辅以标注理由与置信度说明,确保了数据标注的透明性与可追溯性。数据经过清洗与增强处理,划分为训练、验证与测试三个标准子集,为模型开发提供了结构化的基础。
特点
enrichment-v4数据集展现出多层级、细粒度的标注体系特征。其字段设计不仅包含原始交易信息,还集成了实体分类、业务性质、银行系统分类、关系分类以及会计分类等多个维度的语义标签。每个分类均提供经过清理的标准化版本与原始版本,并附有详细的标注理由与置信度评估,这为深入理解交易背后的商业逻辑与财务属性提供了丰富语境。数据集规模适中,涵盖数百条样本,兼具实用性与处理效率,适用于需要高解释性金融数据的分析任务。
使用方法
该数据集适用于金融自然语言处理、交易分类与异常检测等研究场景。使用者可直接加载预分割的训练、验证与测试集,利用其丰富的标注字段构建监督学习模型,例如训练实体识别、交易类型分类或关系预测模型。在模型开发过程中,可重点参考`*_clean`字段作为标准化标签,并利用`*_reason`与`*_confidence`字段进行不确定性分析或模型解释。数据集的标准化格式便于与主流机器学习框架集成,支持端到端的模型训练与评估流程。
背景与挑战
背景概述
enrichment-v4数据集聚焦于金融交易数据的语义增强与分类任务,其构建旨在应对金融科技领域中对交易流水进行自动化解析与深度理解的迫切需求。该数据集由相关研究机构或团队于近年开发,核心研究问题在于如何利用自然语言处理与机器学习技术,对银行交易描述进行多维度分类与实体关系识别,从而提升金融监控、反洗钱及企业财务分析的智能化水平。通过整合交易方向、实体信息、业务性质及多层次分类标签,该数据集为金融文本理解模型的训练与评估提供了结构化基础,推动了领域内从简单模式匹配向语义驱动分析的范式转变。
当前挑战
该数据集致力于解决金融交易文本的细粒度语义分类挑战,包括交易实体分类、关系识别及会计科目映射等复杂任务。这些任务面临领域术语多样、表述歧义及上下文依赖性强等固有难题,要求模型具备深厚的金融知识理解能力。在构建过程中,挑战主要源于原始交易描述的稀疏性与噪声干扰,需通过人工标注与自动化增强相结合的方式确保标签质量;同时,多层级分类体系的设计与一致性维护,以及跨机构数据格式的异构性整合,均对数据集的规模扩展与泛化性能提出了较高要求。
常用场景
解决学术问题
该数据集有效应对了金融数据语义模糊与标注稀缺的学术挑战,通过提供丰富的注释字段如实体分类、业务性质及会计分类,支持了细粒度交易分类、异常检测及关系挖掘等研究。其意义在于推动了金融自然语言处理与知识图谱构建的进展,为自动化财务审计与风险管控提供了可靠的数据支撑。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于深度学习的交易分类模型、结合知识图谱的实体关系抽取系统,以及用于欺诈检测的异常模式识别算法。这些工作不仅拓展了金融数据挖掘的技术边界,也为后续的智能金融应用奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作