five

banking-intent-dataset

收藏
Hugging Face2026-02-27 更新2026-02-28 收录
下载链接:
https://huggingface.co/datasets/learn-abc/banking-intent-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
多语言银行意图数据集是一个专为银行聊天机器人系统设计的自定义多语言意图分类数据集,支持英语、孟加拉语(孟加拉文)和Banglish(罗马化孟加拉语),并包含少量混合代码示例。该数据集旨在训练生产级的多语言银行意图分类器,具有强大的域外回退检测能力。数据集包含134,412个原始样本,其中训练样本114,218个,测试样本20,194个。数据集在三种主要语言之间保持平衡分布,支持14种意图标签,包括账户信息、ATM支持、卡片问题、卡片管理、卡片更换、查询余额、编辑个人资料、转账失败、回退、费用、问候、丢失或被盗卡片、迷你账单和转账。数据集结构包括用户查询文本、意图标签和语言标签三列。数据生成方法包括通过大型语言模型合成生成、手动意图定义和控制、硬负采样、对抗性回退增强、多语言翻译和规范化、分层分割和加权平衡。数据集适用于多语言银行聊天机器人、意图路由系统、金融对话AI和印度语言NLP研究,但不适用于情感分析、命名实体识别、欺诈检测或一般对话AI。数据集完全合成和匿名化,不包含真实用户数据,并设计为最小化不安全的金融操作路由。
创建时间:
2026-02-20
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Multilingual Banking Intent Dataset
  • 托管地址: https://huggingface.co/datasets/learn-abc/banking-intent-dataset
  • 主要任务: 文本分类(意图分类)
  • 领域: 银行与客户支持
  • 许可证: MIT License

语言与规模

  • 支持语言: 英语(en)、孟加拉语(bn)、拉丁化孟加拉语(bn-latn/Banglish),以及少量混合代码(code-mixed)示例。
  • 总样本量: 134,412 个原始样本。
  • 增强后训练样本: 114,218 个。
  • 测试样本: 20,194 个。
  • 规模分类: 100K < n < 1M。
  • 语言分布: 英语、孟加拉语、拉丁化孟加拉语各 33,657 个样本,混合代码样本 500 个,保持平衡。

数据集结构

  • 特征列:
    • text (string): 用户查询文本。
    • custom_intent (string): 意图标签。
    • language (string): 语言标签 (en, bn, bn-latn, code-mixed)。
    • label (int64): 意图对应的数字标签。
  • 数据分割:
    • train: 114,218 个示例,15,191,964 字节。
    • test: 20,194 个示例,2,776,925 字节。
  • 下载大小: 3,977,001 字节。
  • 数据集大小: 17,968,889 字节。

意图分类

  • 标签数量: 14 个。
  • 标签列表: ACCOUNT_INFO ATM_SUPPORT CARD_ISSUE CARD_MANAGEMENT CARD_REPLACEMENT CHECK_BALANCE EDIT_PERSONAL_DETAILS FAILED_TRANSFER FALLBACK FEES GREETING LOST_OR_STOLEN_CARD MINI_STATEMENT TRANSFER
  • 意图分布: FALLBACK 类占比最高(9.44%),旨在增强生产环境安全性。所有意图分布均衡。

数据生成与方法论

  • 构建方法:
    • 使用大语言模型进行合成生成。
    • 手动定义和控制意图。
    • 硬负采样。
    • 对抗性回退(FALLBACK)丰富。
    • 多语言翻译和规范化。
    • 分层分割。
    • 加权平衡。
  • 特别关注点:
    • 避免关键词泄露。
    • 防止跨意图模糊性。
    • 加强 FALLBACK 安全覆盖。
    • 包含对话式、简短、冗长、正式、非正式及带有拼写错误的查询。

预期用途

  • 训练多语言银行聊天机器人。
  • 意图路由系统。
  • 金融对话式人工智能。
  • 印度语言 NLP 研究。
  • 多语言文本分类基准测试。

非预期用途

  • 不适用于:
    • 情感分析。
    • 命名实体识别。
    • 欺诈检测。
    • 通用对话式人工智能。
  • 不适用于法律或财务咨询决策。

优势与局限

  • 优势:
    • 平衡的多语言覆盖。
    • 面向生产的回退处理。
    • 富含硬负样本。
    • 对抗鲁棒性。
    • 银行领域特定。
  • 局限性:
    • 可能存在合成数据偏差。
    • 混合代码示例相较于核心语言有限。
    • 不包含多轮对话上下文。
    • 对于极其简短模糊的查询,性能可能有所差异。

伦理考量

  • 数据集不包含任何个人用户数据。
  • 无真实客户信息。
  • 完全合成且匿名化。
  • 旨在最小化不安全的金融操作路由。

评估基准

  • 使用 MuRIL Base 模型在此数据集上训练后达到:
    • 准确率: 99.36%
    • 宏观 F1 分数: 99.21%
    • 强大的多语言泛化能力。
    • 鲁棒的回退检测。

来源与引用

  • 数据来源:
    • 原始来源:Banking77 数据集 (PolyAI)(最终数据集中忽略了一些意图)。
    • 合成与多语言部分:为重要意图(包括 FALLBACK、GREETING 及代表性不足的意图)生成新示例,添加到 banking77 数据中,然后翻译成孟加拉语和拉丁化孟加拉语。
  • 引用格式: bibtex @dataset{banking_intent_2026, title={Banking Intent Classification Dataset}, author={Abhishek Singh}, year={2026}, publisher={Hugging Face}, url={https://huggingface.co/datasets/learn-abc/banking-intent-dataset} }

联系信息

  • 作者: Abhishek Singh
  • GitHub: https://github.com/SinghIsWriting/
  • LinkedIn: https://www.linkedin.com/in/abhishek-singh-bba2662a9
  • 个人作品集: https://me.devhome.me/
搜集汇总
数据集介绍
main_image_url
构建方式
在金融科技领域,高质量的多语言对话数据对于训练银行客服机器人至关重要。该数据集采用合成生成与人工调控相结合的策略,依托大型语言模型生成初始语料,并辅以严格的人工意图定义与质量控制。构建过程中特别注重硬负样本采样与对抗性回退增强,通过多语言翻译与标准化处理,确保了英语、孟加拉语及罗马化孟加拉语之间的平衡分布。数据经过分层分割与加权平衡,有效避免了关键词泄露与跨意图歧义,同时强化了回退意图的安全覆盖范围,涵盖了从正式查询到包含拼写错误的非正式表达等多种语言变体。
特点
作为面向生产环境的多语言银行意图分类数据集,其核心优势在于均衡覆盖三种主要语言,并针对实际部署中的安全需求进行了专门设计。数据集包含14个银行领域专属意图,其中回退意图被赋予了更高的样本比例,以增强模型对超出范围查询的识别鲁棒性。数据样本兼具多样性与挑战性,囊括了会话式、简短、冗长以及带有拼写错误的用户查询,并通过硬负样本与对抗性样本的引入,提升了分类器在复杂场景下的判别能力。尽管代码混合样本数量相对有限,但整体数据集为构建稳健的跨语言银行对话系统提供了坚实的数据基础。
使用方法
该数据集主要应用于训练多语言银行聊天机器人与意图路由系统,服务于金融对话人工智能的研发。研究人员可借助其进行印度语系自然语言处理或多语言文本分类的基准测试。使用前需将数据集划分为训练集与测试集,依据文本、自定义意图及语言标签等特征构建分类模型。鉴于数据完全合成且已匿名化,无需担忧用户隐私问题,但其合成性质可能带来一定的数据偏差,评估时需加以考量。该数据集不适用于情感分析、命名实体识别或欺诈检测等任务,亦不可作为法律或财务决策的依据。
背景与挑战
背景概述
随着金融科技与自然语言处理技术的深度融合,银行业务场景下的智能对话系统成为研究热点。由Pursuit Software的Abhishek Singh等人于2026年构建的Banking Intent Dataset,专注于多语言银行意图分类任务,旨在为生产级银行聊天机器人提供训练基础。该数据集以Banking77数据集为部分基础,通过大规模语言模型合成生成,并扩展至英语、孟加拉语及罗马化孟加拉语三种语言,涵盖账户查询、卡片管理、转账失败等14类核心银行意图。其构建不仅强化了跨语言意图识别的泛化能力,更通过精心设计的FALLBACK类别提升了系统在未知查询场景下的安全性与鲁棒性,为金融领域的多语言自然语言处理研究提供了重要基准。
当前挑战
在银行意图分类领域,模型需精准区分语义相近的金融操作意图,如“卡片挂失”与“卡片补办”,同时应对用户查询中存在的简写、俚语及多语言混合现象。数据构建过程中,研究者面临合成数据偏差控制、跨语言意图对齐以及硬负样本采样的挑战。为确保生产环境的安全性,需在FALLBACK类别中注入对抗性样本,以增强模型对超出领域范围的查询的识别能力。此外,平衡多语言数据分布、避免关键词泄漏以及减少跨意图模糊性,亦是构建高质量、高可靠性数据集的难点所在。
常用场景
经典使用场景
在金融科技领域,多语言银行意图数据集为构建智能客服系统提供了核心训练资源。该数据集专注于银行场景下的意图分类,涵盖账户查询、卡片管理、转账失败等14类常见用户查询,并特别强化了FALLBACK类的覆盖以提升生产环境的安全性。其经典应用场景在于训练能够理解英语、孟加拉语及罗马化孟加拉语的多语言聊天机器人,实现精准的意图识别与路由,从而优化银行客户服务的自动化流程。
实际应用
在实际部署中,该数据集直接服务于银行业务的数字化转型。基于其训练的意图分类模型可集成至在线聊天机器人、语音助手或客服工单系统,自动处理客户关于余额查询、卡片挂失、费用咨询等高频需求,大幅降低人工客服成本并提升响应效率。同时,其对孟加拉语系的支持,为拓展南亚等新兴市场的金融科技服务提供了关键的语言技术基础设施。
衍生相关工作
围绕该数据集,已衍生出一系列专注于多语言金融NLP的经典研究工作。例如,基于MuRIL等预训练模型在此数据集上进行微调,实现了高达99%以上的分类准确率,验证了跨语言迁移的有效性。相关研究进一步探索了合成数据质量评估、低资源语言意图分类的增强方法,以及面向生产环境的故障安全机制设计,为后续的领域自适应与鲁棒性研究奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作