five

legacy-datasets/banking77

收藏
Hugging Face2024-01-10 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/legacy-datasets/banking77
下载链接
链接失效反馈
官方服务:
资源简介:
BANKING77数据集是一个专门用于银行领域的细粒度意图检测数据集。它包含了13,083条客户服务查询,标注了77种不同的意图。数据集的主要目的是帮助开发更好的意图检测系统,特别是在单一领域内的细粒度意图检测。数据集的结构包括训练集和测试集,分别包含10,003和3,080个样本。数据集的创建是为了填补现有意图检测数据集在单一领域内细粒度意图检测方面的不足。

BANKING77数据集是一个专门用于银行领域的细粒度意图检测数据集。它包含了13,083条客户服务查询,标注了77种不同的意图。数据集的主要目的是帮助开发更好的意图检测系统,特别是在单一领域内的细粒度意图检测。数据集的结构包括训练集和测试集,分别包含10,003和3,080个样本。数据集的创建是为了填补现有意图检测数据集在单一领域内细粒度意图检测方面的不足。
提供机构:
legacy-datasets
原始信息汇总

数据集概述

数据集描述

数据集摘要

BANKING77数据集包含在线银行查询的标注数据,涵盖77种细粒度的意图分类。该数据集包含13,083个客户服务查询,专注于细粒度的单一领域意图检测。

支持的任务和排行榜

  • 意图分类
  • 意图检测

语言

英语

数据集结构

数据实例

训练集的一个示例如下: json { "label": 11, # 对应"card_arrival"意图 "text": "I am still waiting on my card?" }

数据字段

  • text: 字符串特征。
  • label: 分类标签(0-76),对应唯一的意图。

意图名称与标签的映射如下:

label intent (category)
0 activate_my_card
1 age_limit
2 apple_pay_or_google_pay
3 atm_support
4 automatic_top_up
5 balance_not_updated_after_bank_transfer
6 balance_not_updated_after_cheque_or_cash_deposit
7 beneficiary_not_allowed
8 cancel_transfer
9 card_about_to_expire
10 card_acceptance
11 card_arrival
12 card_delivery_estimate
13 card_linking
14 card_not_working
15 card_payment_fee_charged
16 card_payment_not_recognised
17 card_payment_wrong_exchange_rate
18 card_swallowed
19 cash_withdrawal_charge
20 cash_withdrawal_not_recognised
21 change_pin
22 compromised_card
23 contactless_not_working
24 country_support
25 declined_card_payment
26 declined_cash_withdrawal
27 declined_transfer
28 direct_debit_payment_not_recognised
29 disposable_card_limits
30 edit_personal_details
31 exchange_charge
32 exchange_rate
33 exchange_via_app
34 extra_charge_on_statement
35 failed_transfer
36 fiat_currency_support
37 get_disposable_virtual_card
38 get_physical_card
39 getting_spare_card
40 getting_virtual_card
41 lost_or_stolen_card
42 lost_or_stolen_phone
43 order_physical_card
44 passcode_forgotten
45 pending_card_payment
46 pending_cash_withdrawal
47 pending_top_up
48 pending_transfer
49 pin_blocked
50 receiving_money
51 Refund_not_showing_up
52 request_refund
53 reverted_card_payment?
54 supported_cards_and_currencies
55 terminate_account
56 top_up_by_bank_transfer_charge
57 top_up_by_card_charge
58 top_up_by_cash_or_cheque
59 top_up_failed
60 top_up_limits
61 top_up_reverted
62 topping_up_by_card
63 transaction_charged_twice
64 transfer_fee_charged
65 transfer_into_account
66 transfer_not_received_by_recipient
67 transfer_timing
68 unable_to_verify_identity
69 verify_my_identity
70 verify_source_of_funds
71 verify_top_up
72 virtual_card_not_working
73 visa_or_mastercard
74 why_verify_identity
75 wrong_amount_of_cash_received
76 wrong_exchange_rate_for_cash_withdrawal

数据分割

Dataset statistics Train Test
Number of examples 10,003 3,080
Average character length 59.5 54.2
Number of intents 77 77
Number of domains 1 1

数据集创建

策划理由

BANKING77数据集旨在填补现有意图检测数据集的空白,提供一个细粒度的单一领域(银行)意图检测数据集。与多领域数据集相比,该数据集更能捕捉单一领域的复杂性。

源数据

初始数据收集和规范化

[更多信息需要]

源语言生产者

[更多信息需要]

标注

标注过程

数据集不包含额外的标注。

标注者

[不适用]

个人和敏感信息

[不适用]

使用数据的注意事项

数据集的社会影响

该数据集旨在帮助开发更好的意图检测系统,任何全面的意图检测评估应同时涉及粗粒度多领域数据集和细粒度单一领域数据集,如BANKING77。

偏见讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

PolyAI

许可信息

Creative Commons Attribution 4.0 International

引用信息

@inproceedings{Casanueva2020, author = {I{~{n}}igo Casanueva and Tadas Temcinas and Daniela Gerz and Matthew Henderson and Ivan Vulic}, title = {Efficient Intent Detection with Dual Sentence Encoders}, year = {2020}, month = {mar}, note = {Data available at https://github.com/PolyAI-LDN/task-specific-datasets}, url = {https://arxiv.org/abs/2003.04807}, booktitle = {Proceedings of the 2nd Workshop on NLP for ConvAI - ACL 2020} }

贡献

感谢@dkajtoch添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
BANKING77数据集的构建旨在针对单一领域——银行业,提供一个细粒度的意图分类资源。该数据集由专家生成,包含了13083条客户服务查询记录,这些记录被标注为77种不同的意图类别,以应对实际商业环境中遇到的复杂情况。数据集的构建充分考虑了单一领域内的多样性和复杂性,旨在推动意图检测系统的发展。
特点
BANKING77数据集的特点在于其专注于单一领域,即银行业务,且提供了极为细致的意图分类。每个查询记录都被标注为77种意图中的一种,覆盖了银行客户服务中可能遇到的各种场景,从而为意图检测模型的训练和评估提供了丰富的、针对性的数据资源。此外,数据集遵循Creative Commons Attribution 4.0国际许可,保证了其使用的开放性和灵活性。
使用方法
使用BANKING77数据集时,用户可以从HuggingFace的存储库中下载已划分好的训练集和测试集。数据集以JSON格式存储,其中每个实例包含文本内容和对应的意图标签。用户可以直接利用这些数据来进行模型训练,或是进行进一步的探索和分析,以提升意图检测模型在银行业务场景下的性能。
背景与挑战
背景概述
BANKING77数据集是在2020年由PolyAI团队创建的,专注于单一领域——银行业务的细粒度意图检测。该数据集由13,083条客户服务查询组成,每个查询都被标注为77种不同意图中的一种。BANKING77的创建旨在弥补之前意图检测数据集在类别数量和单一领域深度上的不足,为研究者提供了一个能够更真实反映商业环境中意图检测复杂性的数据集。该数据集对相关领域的影响体现在它为细粒度意图检测和单领域模型研究提供了宝贵资源。
当前挑战
BANKING77数据集在构建过程中遇到的挑战包括如何精确标注和处理大量银行业务查询,以及如何在单一领域中捕捉到足够复杂的意图分布。此外,数据集使用中面临的挑战包括如何处理和识别用户查询中的多意图问题,以及如何准确地区分意图之间的细微差别,这对于提升意图检测系统的准确性和实用性至关重要。
常用场景
经典使用场景
BANKING77数据集在自然语言处理领域,尤其是意图识别任务中,被广泛用于训练和评估模型。其经典使用场景在于模拟在线银行服务中的用户查询,通过细粒度的意图分类来理解和响应用户的具体需求,如激活银行卡、查询年龄限制、使用Apple Pay或Google Pay等。
实际应用
在实际应用中,BANKING77数据集可以被用来优化银行的客户服务系统,通过自动识别用户意图,提高服务效率和用户满意度。此外,它还可以用于构建智能聊天机器人,以更好地理解和响应用户的咨询和请求。
衍生相关工作
基于BANKING77数据集,研究者们已经衍生出了一系列相关工作,如使用不同的模型架构进行意图识别,或者结合其他数据集进行跨领域的意图识别研究,进一步推动了该领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作