nataliaElv/banking77_topic_and_sentiment

Name: nataliaElv/banking77_topic_and_sentiment
Creator: nataliaElv
Published: 2024-04-23 13:41:07
License: 暂无描述

Hugging Face2024-04-23 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/nataliaElv/banking77_topic_and_sentiment

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一个配置文件`argilla.yaml`和与HuggingFace `datasets`库兼容的记录。数据集主要用于NLP任务，包含文本字段、问题、建议、元数据和注释指南。数据集的结构包括字段、问题、建议、元数据和向量。数据集包含一个训练集分割。

提供机构：

nataliaElv

原始信息汇总

数据集概述

名称： banking77_topic_and_sentiment

创建工具： Argilla

数据集大小： 1K<n<10K

标签：

rlfh
argilla
human-feedback

数据集内容

配置文件： 包含一个名为argilla.yaml的配置文件，符合Argilla数据集格式。
数据记录： 与HuggingFace datasets兼容的记录格式。
注释指南： 若在Argilla中定义，包含用于构建和整理数据的注释指南。

加载方式

使用Argilla： python import argilla as rg ds = rg.FeedbackDataset.from_huggingface("nataliaElv/banking77_topic_and_sentiment")
使用datasets： python from datasets import load_dataset ds = load_dataset("nataliaElv/banking77_topic_and_sentiment")

数据集结构

字段： 目前仅支持文本字段。
- text：文本类型，必填。
问题： 向注释者提出的问题，类型包括评分、文本、标签选择、多标签选择或排序。
- topics：多标签选择类型，必填。
- sentiment：标签选择类型，必填。
建议： 为注释过程提供的人工或机器生成的建议，与现有问题关联。
- topics-suggestion：多标签选择类型。
- sentiment-suggestion：标签选择类型。
元数据： 提供关于数据集记录的额外信息，可选。
外部ID： 提供数据集记录的外部ID，可选。

数据实例

Argilla格式： 包含文本字段、元数据、响应、建议和向量。
HuggingFace datasets格式： 包含文本字段、元数据、情感、情感建议及其元数据、主题及其建议和元数据。

数据字段

字段： 文本字段。
问题： 主题和情感，类型分别为多标签选择和标签选择。
建议： 主题和情感的建议，类型与问题对应。

数据分割

分割： 仅包含训练集。

搜集汇总

数据集介绍

构建方式

在自然语言处理与情感分析研究领域，针对银行客服场景的多标签分类与情感识别任务，该数据集依托Argilla平台构建而成。其构建过程遵循了标准化的人机协同标注流程，首先通过Argilla框架定义包含文本字段、多标签主题选择与情感标签选择的问题模板，随后引入机器生成的建议数据以辅助人工标注，最终形成兼具主题分类与情感倾向标注的高质量语料库。数据集以HuggingFace Datasets格式存储，并附带Argilla兼容的配置文件，确保了数据在不同工具链间的无缝流转。

使用方法

研究人员可通过两条路径高效利用该数据集。若使用Argilla生态，仅需执行`pip install argilla --upgrade`后调用`rg.FeedbackDataset.from_huggingface`方法，即可加载包含完整标注配置与建议信息的交互式数据集，便于进行人工审查或在线标注。若偏好轻量化操作，则可通过`datasets`库的`load_dataset`函数直接获取结构化记录，每条数据包含文本、主题标签、情感标签及其对应的建议字段。建议在加载后重点关注`suggestions`字段中的预标注信息，这些数据可作为弱监督信号或模型预训练的初始化依据，尤其适用于少样本学习场景下的迁移实验。

背景与挑战

背景概述

在自然语言处理领域，面向特定垂直场景的细粒度情感与主题分析任务日益受到关注，特别是在金融客服、银行交互等高度结构化的对话系统中，精准识别用户意图与情感倾向成为提升服务质量的关键。nataliaElv/banking77_topic_and_sentiment数据集由Argilla团队基于其开源标注框架构建，旨在为银行业务场景下的多标签主题分类与情感极性判断提供高质量的标注资源。该数据集以银行客服对话文本为核心，涵盖77种细粒度主题类别（如卡片激活、转账失败、汇率争议等）以及正面、中性、负面三种情感标签，其设计紧密围绕真实用户查询的复杂性与多样性。通过集成Argilla平台的人机协作标注机制，该数据集不仅支持传统监督学习任务，还可用于强化学习人类反馈（RLHF）流程，为构建更智能、更贴近用户需求的银行业务助手奠定了数据基础。

当前挑战

该数据集所面临的挑战首先体现在领域问题的复杂性上：银行客服场景中的用户查询往往涉及多义性、隐含意图及跨主题交叉，例如一条消息可能同时包含卡片丢失与密码遗忘的诉求，这对多标签分类模型的语义理解能力提出了极高要求。同时，情感极性判断易受上下文语境干扰，如带有讽刺或礼貌性措辞的负面反馈可能被误标为中性或正面。在数据集构建过程中，挑战则集中于标注一致性与规模平衡：77个主题类别的样本分布天然不均衡，稀有类别（如‘虚拟卡未生效’）的标注数据获取困难，而Argilla平台依赖人工标注与机器建议的结合，如何确保标注者遵循统一指南并有效利用预生成建议以避免偏差，成为质量控制的关键。此外，数据集仅包含训练拆分，缺乏独立的验证与测试集，限制了模型泛化能力的可靠评估。

常用场景

经典使用场景

在自然语言处理与金融科技交叉领域，nataliaElv/banking77_topic_and_sentiment数据集为银行客服对话的细粒度语义理解提供了宝贵资源。其经典使用场景聚焦于多标签主题分类与情感极性分析的联合建模，研究者可基于该数据集训练模型，精准识别用户查询中涉及的77种银行服务主题（如卡片激活、转账失败、汇率争议等），同时捕捉用户的情感倾向（正面、中性或负面），从而构建能够同时理解用户意图与情绪状态的智能客服系统。

解决学术问题

该数据集有效解决了金融领域文本理解中主题与情感耦合分析的学术难题。传统研究往往割裂地处理主题分类与情感分析，而本数据集通过提供同一文本的多标签主题标注与情感极性标签，使研究者能够探索两者间的语义关联与交互机制。这一设计推动了多任务学习、联合嵌入表示以及标签依赖建模等方向的理论进展，为构建更贴合真实客服场景的语义理解模型奠定了数据基础。

实际应用

在实际应用中，该数据集可赋能银行与金融机构的智能客服系统升级。通过训练模型自动识别客户咨询的主题类别与情感状态，系统能够实现对话路由的精准分发——例如，将包含愤怒情绪的卡片丢失查询优先转接至高级客服，或对涉及汇率误解的咨询自动推送解释性回复。此外，该数据还支持客服质量监控、用户满意度预测以及业务热点追踪，显著提升服务效率与客户体验。

数据集最近研究