Portuguese Brazilian Call Center Transcripts - 320K words
收藏Snowflake2026-03-23 更新2026-03-27 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZSYZVBO9D
下载链接
链接失效反馈官方服务:
资源简介:
**Dataset Overview**
Nearly 320K words (1.8M Chars) of high-quality, human-validated Portuguese Brazilian Agent/Customer conversations captured from real-world, multi-domain call center interactions. The dataset reflects authentic customer service dialogue across industries, featuring natural speech patterns, real problem-solving flows, emotional variability, and domain-specific language that cannot be replicated through synthetic or scripted data.
It is specifically designed for training and fine-tuning large language models, conversational agents, and enterprise automation solutions.
**Our datasets include:**
- Structured multi-turn dialogues
- Speaker-separated conversations (agent and customer)
- Domain-specific business interactions
- Cleaned and normalized text for direct model ingestion
- Compliance-ready data sourcing
**Key AI use cases**
- LLM fine-tuning for customer support copilots
- Conversational AI and voice/chat agents
- Automated ticket classification and routing
- Sentiment and churn prediction models
- Compliance monitoring and quality assurance automation
This is a free, content-limited trial. For access to the full dataset, please reach out to our team.
提供机构:
DATAmundi
创建时间:
2026-02-19
原始信息汇总
Portuguese Brazilian Call Center Transcripts - 320K words 数据集概述
数据集基本信息
- 数据集名称: Portuguese Brazilian Call Center Transcripts - 320K words
- 提供商: DATAmundi
- 访问模式: 免费试用 (Free to try)
- 试用说明: 此为内容受限的免费试用。如需访问完整数据集,请联系团队。
数据集内容描述
- 数据量: 近32万单词(180万字符)。
- 数据性质: 高质量、经过人工验证的巴西葡萄牙语客服(坐席/客户)对话,源自真实世界、多领域的呼叫中心互动。
- 数据特点:
- 反映跨行业的真实客服对话。
- 包含自然的语音模式、真实的问题解决流程、情感变化以及特定领域的语言。
- 无法通过合成或脚本数据复制。
- 数据结构:
- 结构化的多轮对话。
- 说话人分离的对话(坐席和客户)。
- 特定领域的业务互动。
- 经过清理和归一化的文本,可直接供模型摄取。
- 符合合规要求的数据来源。
- 设计用途: 专门用于训练和微调大语言模型、对话代理和企业自动化解决方案。
关键AI应用场景
- 用于客户支持副驾驶的LLM微调。
- 对话式AI及语音/聊天代理。
- 自动工单分类和路由。
- 情感和流失预测模型。
- 合规监控和质量保证自动化。
数据字典(表结构)
- 表名:
PT_BR_CALL_CENTRE_TRANSCRIPTIONS - 列说明:
CONTENT: VarcharLANGUAGE: VarcharLOUDNESSLEVEL: VarcharPRIMARYTYPE: VarcharSEGMENTID: VarcharSEGMENTLANGUAGES: VarcharSPEAKERID: VarcharTRANSCRIPT_DOMAIN: VarcharTRANSCRIPT_ID: VarcharTRANSCRIPT_LANGUAGES: VarcharTRANSCRIPT_NAME: VarcharTRANSCRIPT_TOPIC: VarcharSTART_T: FloatEND_T: Float
数据预览示例
数据包含多行记录,示例如下:
LANGUAGE均为pt_BR。LOUDNESSLEVEL主要为Normal。PRIMARYTYPE包括Speech和Babble。TRANSCRIPT_DOMAIN为Call-center。TRANSCRIPT_NAME为MULTI_SPEAKER_LONG_FORM_TRANSCRIPTION。TRANSCRIPT_TOPIC涵盖多个领域,如Retail、Technology; Information and Technology; Others、Finance; Work; Information and Technology; Others; Telecom、Work; Telecom、Others。
使用示例
- 获取所有转录数据: sql Select * from PT_BR_CALL_CENTRE_TRANSCRIPTIONS
提供商其他相关数据集(来自DATAmundi)
- French Canadian Call Center Transcripts - 20K Words
- English AU Call Center Human-Validated Transcripts - 570K words
- Italian Call Center Transcripts - 170K Words
- Korean Call Center Transcripts - 170K Chars
- Hindi Call Center Transcripts - 400K Words
- English UK Call Center Transcripts - 1M Words
技术与管理信息
- 数据类别: AI & ML, Machine Learning。
- 刷新策略: 静态数据产品 (Static data product)。
- 云区域可用性 (AWS): 支持多个区域,包括 Africa (Cape Town)、Asia Pacific (Jakarta)、Asia Pacific (Mumbai)、Asia Pacific (Osaka) 等。
- 法律条款: Standard。
- 联系方式:
- 销售: sales@datamundi.ai
- 支持: https://datamundi.ai/contact/



