brazilian-customer-service-conversations

Hugging Face2025-12-02 更新2025-12-03 收录

下载链接：

https://huggingface.co/datasets/RichardSakaguchiMS/brazilian-customer-service-conversations

下载链接

链接失效反馈

官方服务：

资源简介：

巴西客户服务对话数据集是一个葡萄牙语巴西语（PT-BR）的高质量合成对话数据集，模拟了客户和服务人员在巴西经济各部门之间的真实互动。该数据集可用于训练和评估聊天机器人、意图分类、对话中的情感分析和上下文响应生成的模型。数据集包含1000多条对话，约7000条消息，涉及8个经济部门和9种意图类型，以及3种情感类型。

创建时间：

2025-12-02

原始信息汇总

Brazilian Customer Service Conversations 数据集概述

基本信息

数据集名称：Brazilian Customer Service Conversations
语言：葡萄牙语 (pt)
许可证：Apache 2.0
数据规模：1K<n<10K
创建年份：2025
发布者：Hugging Face
作者：Richard Sakaguchi
作者网站：https://sakaguchi.ia.br

数据集描述

这是一个高质量的巴西葡萄牙语（PT-BR）客户服务对话合成数据集，模拟了巴西多个经济领域中客户与客服之间的真实互动。

主要用途

该数据集适用于训练和评估以下模型：

客服聊天机器人
意图分类
对话情感分析
上下文响应生成

数据统计

指标	数值
对话总数	1,000+
消息总数	~7,000
平均对话轮次	~7
覆盖行业	8
意图类别	9
情感类别	3

行业覆盖

E-commerce
金融（银行、金融科技）
电信
健康
教育
餐厅/外卖
房地产
技术/SaaS

意图分类

意图	描述
saudacao	初始问候
duvida_produto	关于产品的疑问
duvida_servico	关于服务的疑问
reclamacao	问题或不满意
suporte_tecnico	技术帮助
compra	购买意图
cancelamento	取消请求
elogio	正面反馈
outros	其他情况

情感类别

positive：客户满意
neutral：客户中立
negative：客户不满意

数据结构

数据以JSONL格式存储，每个对话包含以下字段：

id：对话唯一标识符
messages：消息列表，每条消息包含role（customer/agent）和content
metadata：元数据，包含intent、sentiment、sector和turns

数据划分

数据集分为三个部分：

训练集：data/train.jsonl
验证集：data/validation.jsonl
测试集：data/test.jsonl

语言特征

数据集捕捉了巴西葡萄牙语的非正式特征：

缩写：vc, td, ta, pq, msg
俚语：beleza, show, blz
受控的非正式性
语域变化

基准性能

任务	指标	基线性能
意图分类	F1-Score	~0.72
情感分析	Accuracy	~0.78

局限性

合成数据集（由LLM生成）
可能包含生成模型的偏见
建议在生产中补充真实数据

引用格式

bibtex @dataset{sakaguchi2025brazilian, author = {Richard Sakaguchi}, title = {Brazilian Customer Service Conversations}, year = {2025}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/RichardSakaguchiMS/brazilian-customer-service-conversations} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量的对话数据集对于训练和评估客户服务模型至关重要。该数据集通过大型语言模型生成，模拟了巴西葡萄牙语环境中客户与客服之间的真实交互，覆盖电子商务、金融、电信、健康、教育、餐饮、房地产和技术服务等八个关键经济领域。构建过程中，设计者精心定义了九种用户意图和三种情感类别，确保对话内容既具有多样性又保持逻辑连贯性，最终形成了包含一千余次对话、约七千条消息的语料库，每条对话平均包含七个轮次，为模型训练提供了丰富的上下文信息。

特点

该数据集在语言学层面精准捕捉了巴西葡萄牙语的非正式表达特征，包括常见的缩写形式如“vc”、“td”，以及本土俚语如“beleza”、“show”等，体现了日常对话的真实性与生动性。结构上，每条记录不仅包含完整的对话序列，还附有意图分类、情感倾向和所属行业等多维度元数据，支持意图检测、情感分析和对话生成等多种自然语言处理任务。其合成性质虽可能引入生成模型的潜在偏差，但通过覆盖广泛场景和意图，为研究跨领域对话理解提供了标准化且可扩展的基准资源。

使用方法

研究人员可通过Hugging Face平台直接加载该数据集，利用其预划分的训练、验证和测试集进行模型开发。对于意图分类任务，可提取客户初始消息作为输入特征，对应元数据中的意图标签作为监督信号；情感分析则可将整个对话文本拼接后，与情感标签关联进行训练。数据集支持端到端的对话系统构建，也可用于评估模型在巴西葡萄牙语场景下的泛化能力。使用时应结合其基准性能指标进行对比分析，并注意合成数据的局限性，建议在实际部署前用真实语料进行补充验证。

背景与挑战

背景概述

在自然语言处理领域，面向特定语言和垂直场景的对话数据集对于推动智能客服系统的研发至关重要。巴西葡萄牙语（PT-BR）作为全球重要语言之一，其数字服务领域的语言资源相对匮乏。2025年，研究人员Richard Sakaguchi创建了Brazilian Customer Service Conversations数据集，旨在填补这一空白。该数据集包含超过1000个合成对话，涵盖电子商务、金融、电信等八个巴西经济核心领域，模拟了客户与客服代表之间的真实交互。其核心研究问题聚焦于如何利用高质量合成数据，支持葡萄牙语聊天机器人、意图分类、情感分析及上下文响应生成等任务的模型训练与评估，为巴西本土化人工智能应用提供了关键数据基础。

当前挑战

该数据集致力于解决巴西葡萄牙语客户服务对话场景下的自然语言理解挑战，具体包括多领域意图的精准识别、对话流中情感动态的捕捉，以及符合当地语言习惯的上下文响应生成。在构建过程中，面临的挑战主要源于数据合成本身：如何确保由大语言模型生成的对话在语言风格、领域知识和交互逻辑上逼近真实场景，同时控制其固有的生成偏见。此外，数据集虽覆盖多个领域，但每个领域的样本分布与真实世界的数据长尾现象可能存在差距，这要求在使用时需结合真实数据进行补充与校准，以提升模型在生产环境中的鲁棒性与泛化能力。

常用场景

经典使用场景

在自然语言处理领域，巴西客户服务对话数据集为葡萄牙语对话系统研究提供了宝贵资源。该数据集最经典的使用场景是训练和评估面向巴西葡萄牙语的客户服务聊天机器人，通过模拟电子商务、金融、电信等多个经济部门的真实对话交互，支持模型在意图分类、情感分析和上下文响应生成等任务上的性能优化。其高质量合成对话结构，使得研究者能够系统性地探索多轮对话中的语言模式与用户行为。

解决学术问题

该数据集有效解决了葡萄牙语自然语言处理研究中数据稀缺的挑战，为意图检测、情感分析和对话生成等核心学术问题提供了标准化评估基准。通过涵盖九种用户意图和三种情感标签，它支持模型在复杂对话场景下的细粒度语义理解研究，促进了跨领域对话系统的泛化能力探索，对推动葡萄牙语NLP技术的理论发展具有重要影响。

衍生相关工作

基于该数据集，已衍生出多项经典研究工作，包括针对葡萄牙语意图分类的深度神经网络模型优化、跨领域情感分析框架的开发，以及多任务对话系统的构建。这些工作不仅提升了基准性能，还推动了葡萄牙语NLP社区在数据增强、偏见检测和合成数据验证等方面的方法论创新，为后续研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成