Banking

github2024-05-13 更新2024-05-31 收录

下载链接：

https://github.com/PolyAI-LDN/task-specific-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含在线银行查询及其对应意图标注的数据集。

A dataset containing online banking queries and their corresponding intent annotations.

创建时间：

2020-02-13

原始信息汇总

数据集概述

数据集列表

Banking: 包含在线银行查询及其对应意图标注的数据集。
Span Extraction: 用于SpanConvert论文的数据集。
NLU++: 一个多域、多标签意图和槽位的对话NLU模型评估环境。
EVI: 一个多语言数据集，用于知识基础的注册、识别和识别在口语对话系统中。

Banking数据集详情

训练示例: 10003
测试示例: 3080
意图数量: 77

示例查询及意图

查询: "Is there a way to know when my card will arrive?"
- 意图: card_arrival
查询: "I think my card is broken"
- 意图: card_not_working
查询: "I made a mistake and need to cancel a transaction"
- 意图: cancel_transfer
查询: "Is my card usable anywhere?"
- 意图: card_acceptance

引用信息

引用文献: Efficient Intent Detection with Dual Sentence Encoders
BibTeX: bibtex @inproceedings{Casanueva2020, author = {I{~{n}}igo Casanueva and Tadas Temcinas and Daniela Gerz and Matthew Henderson and Ivan Vulic}, title = {Efficient Intent Detection with Dual Sentence Encoders}, year = {2020}, month = {mar}, note = {Data available at https://github.com/PolyAI-LDN/task-specific-datasets}, url = {https://arxiv.org/abs/2003.04807}, booktitle = {Proceedings of the 2nd Workshop on NLP for ConvAI - ACL 2020} }

Span Extraction数据集详情

数据结构: 包含多个JSON文件，如test.json和train_{i}.json，用于评估和训练。
示例结构: json { "userInput": { "text": "I would like a table for one person" }, "labels": [ { "slot": "people", "valueSpan": { "startIndex": 25, "endIndex": 35 } } ] }

引用信息

引用文献: the Span-ConveRT paper
BibTeX: bibtex @inproceedings{CoopeFarghly2020, Author = {Sam Coope and Tyler Farghly and Daniela Gerz and Ivan Vulić and Matthew Henderson}, Title = {Span-ConveRT: Few-shot Span Extraction for Dialog with Pretrained Conversational Representations}, Year = {2020}, url = {https://arxiv.org/abs/2005.08866}, publisher = {ACL}, }

搜集汇总

数据集介绍

构建方式

该数据集由在线银行查询组成，每个查询均被标注了相应的意图。数据集的构建方式是通过收集和整理用户在在线银行系统中的常见查询，并对其进行意图分类。这些查询涵盖了多种银行相关场景，如卡片状态查询、交易取消等，共计77种意图。数据集的训练集包含10003个样本，测试集包含3080个样本，确保了数据集的多样性和实用性。

使用方法

使用该数据集时，用户可以通过加载训练集和测试集进行模型的训练与评估。数据集的格式为每条查询与其对应的意图标注，便于直接应用于意图检测任务。建议在使用时参考相关文献，如《Efficient Intent Detection with Dual Sentence Encoders》，以确保正确理解和使用数据集。

背景与挑战

背景概述

Banking数据集是由PolyAI公司创建并发布的一个专门用于在线银行查询意图识别的自然语言理解（NLU）数据集。该数据集包含了10003条训练样本和3080条测试样本，涵盖了77种不同的意图类别。其核心研究问题在于如何高效地识别用户在在线银行场景中的查询意图，这对于提升银行服务的自动化和用户体验具有重要意义。该数据集的发布不仅为意图检测领域的研究提供了丰富的资源，还为相关领域的模型训练和评估提供了基准。

当前挑战

Banking数据集面临的挑战主要集中在两个方面。首先，意图识别的准确性要求极高，因为错误的意图分类可能导致用户无法获得正确的服务，甚至引发安全问题。其次，数据集中的意图类别多样且复杂，涵盖了从卡片状态查询到交易取消等多种场景，这要求模型具备较强的泛化能力和上下文理解能力。此外，数据集的构建过程中也面临标注一致性和数据隐私保护等挑战，确保数据质量和安全性是该数据集应用的关键。

常用场景

经典使用场景

Banking数据集的经典使用场景主要集中在自然语言理解（NLU）领域，特别是在意图识别任务中。该数据集包含了10003条训练样本和3080条测试样本，涵盖了77种不同的银行相关意图，如卡片到达查询、卡片故障报告和交易取消请求等。通过这些标注数据，研究者和开发者可以训练和评估意图检测模型，从而提升在线银行系统的用户交互体验。

解决学术问题

Banking数据集解决了自然语言处理领域中意图检测的学术研究问题。该数据集通过提供丰富的银行相关查询及其对应的意图标签，帮助研究者开发和验证高效的意图检测算法。其意义在于推动了NLU技术在特定领域（如银行服务）中的应用，提升了模型在复杂查询中的准确性和鲁棒性，为相关研究提供了宝贵的资源。

实际应用

在实际应用中，Banking数据集被广泛用于开发和优化在线银行系统的自然语言处理模块。通过训练意图检测模型，银行可以更准确地理解用户的查询意图，从而提供更智能、更个性化的服务。例如，用户询问卡片状态或交易问题时，系统能够快速识别并提供相应的解决方案，显著提升了用户体验和操作效率。

数据集最近研究