community-category-keywords
收藏github2026-03-17 更新2026-03-19 收录
下载链接:
https://github.com/budgi-it/community-category-keywords
下载链接
链接失效反馈官方服务:
资源简介:
这是第一个用于巴西银行交易自动分类的开源关键词数据集。它映射了银行对账单中的术语(如iFood、Nubank、PIX等)到标准类别,兼容开放银行、账户对账单和信用卡对账单。
This is the first open-source keyword dataset for automatic classification of Brazilian bank transactions. It maps terms extracted from bank statements (e.g., iFood, Nubank, PIX, etc.) to standard categories, and is compatible with open banking, account statements and credit card statements.
创建时间:
2026-03-17
原始信息汇总
Community Category Keywords 数据集概述
数据集基本信息
- 数据集名称:Community Category Keywords
- 主要用途:用于巴西银行交易自动分类的首个开源关键词数据集。
- 核心功能:将银行对账单(如iFood、Nubank、PIX等)中的术语映射到标准类别。兼容开放金融、账户对账单和信用卡对账单。
- 语言与地区:葡萄牙语(巴西)— PT-BR。
- 创建背景:填补葡萄牙语(巴西)领域现成数据集的空白,现有数据集主要聚焦于美国/英国。
数据集内容与结构
- 核心文件:
category-keywords.json - 文件字段说明:
version:语义版本号。license:MIT许可证。description:数据集描述。expense:支出类交易的映射关系。income:收入类交易的映射关系。
- 映射逻辑:每个映射包含
keywords(对账单中的术语)指向categoryTerms(葡萄牙语/英语/西班牙语的类别名称)。
使用方法
-
获取方式: bash curl -O https://raw.githubusercontent.com/budgi-it/community-category-keywords/main/category-keywords.json
-
匹配逻辑:
- 标准化交易描述:转换为小写并去除首尾空格。
- 按顺序遍历映射:若任一关键词出现在描述中,则在用户类别中查找包含任一
categoryTerm的类别。 - 首个匹配项生效。
- 若无匹配,则使用默认类别。
包含的类别
- 支出类别:Alimentação, Transporte, Combustível, Assinatura, Supermercado, Compras, Seguro, Saúde, Academia, Lazer, Moradia, Veículo, Educação, Viagem, Cartões, Imposto, Taxas, Empréstimo, Presente, Dízimo, Doação, Salão, Pet, Vestuário, Móveis, Construção, Pagamento, Outros。
- 收入类别:Salário, Vendas, Rendimento, Cashback, Investimento, Empréstimo, Ajuda, Presente, Criptomoeda, Prêmio, Outros。
贡献指南
- 流程:Fork仓库 -> 编辑
category-keywords.json文件(添加关键词或新映射)-> 提交Pull Request。 - 规则:
- 关键词使用小写。
- 包含变体:带/不带重音符号,葡萄牙语/英语/西班牙语。
categoryTerms对应应用程序中的标准类别名称。- 保持顺序:更具体的关键词置于更通用的关键词之前(例如:"uber eats" 在 "uber" 之前)。
许可证
- 类型:MIT许可证。
搜集汇总
数据集介绍

构建方式
在金融科技领域,自动分类银行交易是提升个人财务管理效率的关键。Community Category Keywords数据集通过社区协作的方式构建,其核心文件category-keywords.json采用结构化JSON格式,包含版本、许可证、描述及收支映射等字段。数据收集聚焦于巴西葡萄牙语(PT-BR)语境,针对本土化交易描述如iFood、Nubank和PIX等平台,通过人工与社区贡献逐步积累关键词与分类术语的映射关系。构建过程中遵循语义版本控制,并采用MIT开源许可,确保数据的可追溯性与广泛可用性。
特点
该数据集显著特点在于其本土化与多语言支持。作为首个专注于巴西银行交易自动分类的开源关键词数据集,它填补了葡萄牙语资源的空白,与现有以英语为中心的数据集形成互补。数据集涵盖丰富的分类体系,包括支出与收入两大类别,细分如餐饮、交通、超市等具体领域,并支持葡萄牙语、英语和西班牙语的分类术语映射。关键词设计注重实用性,包含大小写归一化、重音变体及常见拼写变体,增强了匹配的鲁棒性。其结构强调关键词的优先级排序,将具体术语置于通用术语之前,以优化分类准确性。
使用方法
使用该数据集进行交易分类时,需遵循一套清晰的逻辑流程。首先下载JSON文件并解析数据结构,根据交易类型选择支出或收入映射。对于每笔交易,需将描述信息转换为小写并去除空格以归一化处理。随后遍历映射列表,检查归一化描述是否包含任一关键词;一旦匹配成功,则在用户自定义分类中查找包含相应分类术语的类别。采用首次匹配优先原则,若未找到对应分类则返回默认类别。该方法可直接集成到金融应用或分析工具中,通过简单的编程接口实现自动化分类,提升数据处理效率与一致性。
背景与挑战
背景概述
在巴西金融科技领域,自动交易分类是提升个人财务管理与开放银行服务体验的核心技术。社区类别关键词数据集由Budgi-it团队于近年创建,旨在填补葡萄牙语(巴西)语境下标准化分类关键词资源的空白。该数据集聚焦于银行交易文本的语义映射,将交易描述中的关键词与预定义支出及收入类别相关联,其设计兼容开放金融生态,支持从传统银行对账单到数字支付平台(如iFood、Nubank、PIX)的多样化场景。作为首个开源的葡萄牙语关键词数据集,它不仅推动了巴西本土金融数据标准化进程,也为拉美地区金融科技应用的自然语言处理任务提供了重要基础。
当前挑战
该数据集致力于解决金融交易自动分类中的语义映射挑战,尤其在多语言混杂与地域文化差异显著的巴西支付环境中,准确识别如“PIX”等本土化支付术语并关联至统一类别体系存在难度。构建过程中的主要挑战包括:首先,需系统收集涵盖餐饮、交通、订阅等数十个类别的交易描述变体,并处理葡萄牙语中重音、拼写变体及英语、西班牙语外来词的影响;其次,在社区协作框架下,维护关键词的优先级顺序与一致性,避免通用词覆盖特定场景,例如确保“uber eats”优先于“uber”匹配,这对数据集的逻辑完整性与实际应用效果至关重要。
常用场景
经典使用场景
在金融科技领域,自动分类银行交易记录是提升个人财务管理效率的关键环节。Community Category Keywords 数据集通过映射巴西地区常见交易描述关键词至标准化类别,为开发者提供了一个本地化的解决方案。其经典使用场景在于集成到银行或金融应用程序中,利用关键词匹配逻辑,自动将用户的交易记录如 iFood、Nubank 或 PIX 转账归类到预定义的支出与收入类别中,从而简化用户手动分类的繁琐过程,并支持 Open Finance 生态系统的数据标准化需求。
实际应用
在实际应用层面,该数据集可直接赋能各类个人财务管理工具、预算分析软件以及银行后台系统。开发者能够利用其关键词库,快速实现交易记录的自动分类功能,增强应用的用户体验与粘性。对于金融机构而言,集成此类分类能力有助于提供个性化的消费洞察、财务报告以及欺诈检测的辅助分析。同时,它也为初创公司或独立开发者降低了进入金融科技领域的门槛,使得构建符合巴西本地语言和文化习惯的智能金融应用变得更加可行。
衍生相关工作
围绕该数据集,社区可能衍生出多种经典工作方向。其一,是构建更先进的分类模型,例如结合词嵌入或预训练语言模型来提升对交易描述中同义词、缩写和拼写变体的识别能力。其二,是扩展数据集本身,通过众包或自动化挖掘技术,持续增加关键词覆盖范围和新出现的交易类型。其三,是开发基于此数据集的标准化API或开源库,为社区提供即插即用的分类服务。这些工作共同推动了葡萄牙语金融文本处理工具链的完善,并可能启发其他地区类似本地化数据集的创建。
以上内容由遇见数据集搜集并总结生成



