DeepPavlov/banking77
收藏Hugging Face2025-06-23 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/DeepPavlov/banking77
下载链接
链接失效反馈官方服务:
资源简介:
banking77是一个文本分类数据集,适用于机器学习研究和实验。该数据集通过格式化另一个公开可用的数据集而来,以兼容AutoIntent库。数据集包含两个部分:default和intents。default部分包括训练集和测试集,用于模型训练和评估;intents部分包含意图的相关信息。
banking77 is a text classification dataset intended for machine learning research and experimentation. The dataset is obtained by formatting another publicly available dataset to be compatible with the AutoIntent Library. It includes two parts: default and intents. The default part consists of training and test sets for model training and evaluation, while the intents part contains information about the intents.
提供机构:
DeepPavlov
搜集汇总
数据集介绍

构建方式
在金融科技领域,对话系统的精准意图识别是提升用户体验的关键。DeepPavlov/banking77数据集源于对PolyAI/banking77原始数据的重构,通过自动化脚本将原始文本与标签映射为结构化格式。该过程涉及从HuggingFace仓库提取数据集元信息,解析意图名称与ID的对应关系,并依据预设的样本数量限制,对训练集和测试集进行均衡采样,最终封装为兼容AutoIntent库的内部数据模式,确保了数据的一致性与可用性。
特点
作为专注于银行业务场景的文本分类资源,该数据集涵盖了77类常见的客户咨询意图,如账户查询、交易争议等,具有高度的领域特异性。其训练集包含10003条样本,测试集含3080条样本,每条数据均由用户话语和整数标签构成,结构清晰且规模适中。此外,数据集额外提供了意图的详细描述信息,包括名称、标签及正则表达式匹配模式,为模型的可解释性研究提供了丰富注释。
使用方法
该数据集主要服务于意图识别模型的训练与评估,尤其适配于DeepPavlov团队开发的AutoIntent工具库。研究人员可通过调用库中的Dataset类,直接从Hub加载数据集,快速构建分类任务流水线。数据已预分割为训练与测试两部分,支持标准的机器学习工作流程,如特征提取、模型训练及性能验证,同时其结构化设计便于扩展至少样本学习或意图描述增强等前沿实验场景。
背景与挑战
背景概述
在自然语言处理领域,意图识别作为对话系统的核心任务,旨在准确理解用户查询的语义意图。DeepPavlov/banking77数据集由PolyAI团队于2020年创建,专注于银行业务场景下的多类别意图分类研究。该数据集包含77个精细定义的银行相关意图类别,涵盖账户管理、交易查询、客户服务等多个子领域,为学术界和工业界提供了标准化的评估基准。其构建基于真实用户对话数据,通过严谨的标注流程确保了数据质量,显著推动了任务导向对话系统在垂直领域的发展,成为意图识别研究的重要资源。
当前挑战
该数据集旨在解决银行业务场景下的细粒度意图分类问题,其核心挑战在于区分语义高度相似的意图类别,例如“查询账户余额”与“查询交易历史”之间的细微差异。构建过程中,数据收集面临领域专业性强、用户表达多样化的困难,需确保覆盖广泛的银行业务场景。标注环节则需处理意图类别的边界模糊性,要求标注者具备领域知识以保持一致性。此外,数据分布的不均衡性可能导致模型偏向高频意图,增加了模型泛化能力的考验。
常用场景
经典使用场景
在金融科技领域,意图识别是构建智能对话系统的核心任务。Banking77数据集作为专门针对银行业务场景的文本分类资源,其经典使用场景在于训练和评估自然语言处理模型对用户查询的意图分类能力。该数据集涵盖了77种不同的银行业务意图,如账户查询、转账操作、费用争议等,为模型提供了丰富的语义多样性。研究人员通常利用该数据集进行监督学习,通过微调预训练语言模型,实现高精度的意图分类,从而推动对话系统在垂直领域的应用深化。
解决学术问题
Banking77数据集有效解决了自然语言处理中领域特定意图识别的学术挑战。在通用意图数据集难以覆盖专业场景的背景下,该数据集填补了银行业务意图分类的资源空白,促进了领域自适应和少样本学习的研究。它帮助学术界探索模型在复杂语义和细粒度类别下的泛化能力,并为意图混淆、数据不平衡等常见问题提供了基准测试平台。其高质量标注和结构化设计,显著提升了意图识别研究的可复现性和比较公平性,对推动对话人工智能的理论进展具有重要价值。
衍生相关工作
围绕Banking77数据集,学术界和工业界衍生了一系列经典研究工作。在模型方面,诸如BERT、RoBERTa等预训练模型在该数据集上进行了广泛的微调实验,推动了领域自适应技术的发展。相关研究还探索了少样本学习、意图聚类和数据增强方法,以应对标注数据稀缺的挑战。此外,该数据集常被用于多语言意图识别和跨领域迁移学习的基准测试,促进了对话系统评估标准的统一。这些工作不仅丰富了意图识别的技术体系,也为后续更复杂的任务如对话状态跟踪奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



