banking77-pt-br

Hugging Face2025-02-21 更新2025-02-22 收录

下载链接：

https://huggingface.co/datasets/sarajane/banking77-pt-br

下载链接

链接失效反馈

官方服务：

资源简介：

BANKING77-PTBR是一个葡萄牙语巴西版本的银行对话查询数据集，包含13083条客户服务相关的查询记录，这些记录被标注为77种不同的意图。该数据集主要用于支持特定领域的上下文分析，如分类、意图检测和上下文验证。

创建时间：

2025-02-16

搜集汇总

数据集介绍

构建方式

针对特定领域语言数据的稀缺性，banking77-pt-br数据集应运而生。该数据集是对原有BANKING77数据集的葡萄牙语巴西版翻译，构建过程中采用了大型语言模型进行初步翻译，随后通过人工审核确保翻译质量。数据集包含13083条与银行客户服务相关的在线咨询记录，这些记录被细分为77种不同的意图标签，旨在为特定领域的语境分析提供支持。

特点

banking77-pt-br数据集的特点在于其领域专业性及语言的本地化。它不仅涵盖了银行客户服务中可能出现的多样化意图，还针对葡萄牙语巴西版语言环境进行了优化，有利于提升语言模型在金融领域的语境理解能力。此外，数据集的开放许可（cc-by-4.0）使得研究者和开发者能够自由使用和分享数据，促进了学术和技术的交流。

使用方法

使用banking77-pt-br数据集时，用户需遵循其开放许可的规定。数据集可以直接从Hugging Face平台下载，并可用于自然语言处理任务，如意图识别、语境检测等。用户在研究和开发过程中应保证数据的完整性，并按照数据使用规范进行引用，以尊重数据贡献者的知识产权和劳动成果。

背景与挑战

背景概述

在自然语言处理领域，特别是在金融服务业的应用研究中，数据集的构建至关重要。banking77-pt-br数据集，创建于2025年，是在PolyAI的BANKING77数据集基础上，由巴西圣保罗大学数据科学中心（C2D）的Dimant等研究人员翻译并扩展的葡萄牙语巴西版本。该数据集包含了13083条在线咨询记录，这些记录涉及银行客户服务的各个方面，并被标注为77种不同的意图。该数据集的核心研究问题是提高对特定领域语境分析的支持，特别是在意图分类和上下文验证任务中，对金融领域的自然语言处理研究产生了显著影响。

当前挑战

数据集构建过程中，研究人员面临了多项挑战。首先，确保翻译的准确性和一致性是一项艰巨的任务，这涉及到大型语言模型的使用和人工审查的结合。其次，领域特定的语境理解和意图识别在多语言环境中尤其复杂，对模型提出了更高的要求。此外，数据集在构建时还需考虑到版权和隐私问题，以确保数据使用的合法性和安全性。

常用场景

经典使用场景

在自然语言处理领域，banking77-pt-br数据集的典型应用场景是作为训练和评估对话系统的基础。该数据集包含银行对话系统中的查询实例，为研究者在意图识别、语境检测和分类任务中提供了丰富的样本资源，进而促进开发出能够理解并准确响应客户需求的智能对话系统。

实际应用

在实际应用中，banking77-pt-br数据集被广泛用于构建和优化银行的客户服务对话系统。它使得银行能够更精确地理解和分类客户的咨询意图，从而提供更快速、更准确的客户服务，增强客户满意度并提高运营效率。

衍生相关工作

banking77-pt-br数据集的推出促进了多项相关研究工作的开展，包括但不限于对话系统的语境建模、多意图识别和跨领域适应性研究。该数据集的衍生工作为金融领域的自然语言处理研究贡献了新的方法和模型，推动了该领域的科技进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集