Italian Call Center Transcripts - 170K Words
收藏Snowflake2026-03-23 更新2026-03-27 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZSYZVBO99
下载链接
链接失效反馈官方服务:
资源简介:
DATAmundi is your data training partner for real world AI. We provide ready-to-use AI training datasets across text, speech, image, and video. Our quality multilingual, multimodal, data solutions help AI teams build high performing systems across the globe.
**Description**
**Dataset Overview**
Nearly 170K words (1.2M Chars) of high-quality, human-validated Agent/Customer conversations captured from real-world, multi-domain call center interactions. The dataset reflects authentic customer service dialogue across industries, featuring natural speech patterns, real problem-solving flows, emotional variability, and domain-specific language that cannot be replicated through synthetic or scripted data.
It is specifically designed for training and fine-tuning large language models, conversational agents, and enterprise automation solutions.
**Our datasets include:**
- Structured multi-turn dialogues
- Speaker-separated conversations (agent and customer)
- Domain-specific business interactions
- Cleaned and normalized text for direct model ingestion
- Compliance-ready data sourcing
**Key AI use cases**
- LLM fine-tuning for customer support copilots
- Conversational AI and voice/chat agents
- Automated ticket classification and routing
- Sentiment and churn prediction models
- Compliance monitoring and quality assurance automation
This is a free, content-limited trial. For access to the full dataset, please reach out to our team.
提供机构:
DATAmundi
创建时间:
2026-02-19
原始信息汇总
Italian Call Center Transcripts - 170K Words 数据集概述
数据集基本信息
- 数据集名称: Italian Call Center Transcripts - 170K Words
- 提供商: DATAmundi
- 访问模式: 免费试用(内容有限)
- 数据产品类型: 静态数据产品
数据集描述
- 内容: 近17万单词(120万字符)的高质量、经过人工验证的客服人员/客户对话记录,源自真实世界、多领域的呼叫中心互动。
- 特点: 反映了跨行业的真实客户服务对话,包含自然语音模式、真实问题解决流程、情绪变化以及领域特定语言,无法通过合成或脚本数据复制。
- 设计目的: 专门用于训练和微调大语言模型、对话代理和企业自动化解决方案。
数据集包含内容
- 结构化的多轮对话
- 说话人分离的对话(客服人员和客户)
- 特定领域的业务互动
- 经过清理和规范化的文本,可直接供模型使用
- 符合合规要求的数据来源
关键AI应用场景
- 用于客户支持助手的LLM微调
- 对话式AI和语音/聊天代理
- 自动工单分类和路由
- 情感和流失预测模型
- 合规监控和质量保证自动化
数据字典(表: IT_IT_CALL_CENTRE_TRANSCRIPTIONS)
| 列名 | 数据类型 | 描述/示例 |
|---|---|---|
| CONTENT | Varchar | 人类转录文本 |
| LANGUAGE | Varchar | 语言代码(示例: it_IT) |
| LOUDNESSLEVEL | Varchar | 响度级别(示例: Normal) |
| PRIMARYTYPE | Varchar | 主要类型(示例: Speech) |
| SEGMENTID | Varchar | 片段ID(示例: 86) |
| SEGMENTLANGUAGES | Varchar | 片段语言(示例: it_IT) |
| SPEAKERID | Varchar | 说话人ID(示例: it_IT_1baa3da9-9ea3-4b91-a4c1-9ef113d804fa_2) |
| TRANSCRIPT_DOMAIN | Varchar | 转录领域(示例: Call-center) |
| TRANSCRIPT_ID | Varchar | 转录ID(示例: it_IT_1baa3da9-9ea3-4b91-a4c1-9ef113d804fa) |
| TRANSCRIPT_LANGUAGES | Varchar | 转录语言(示例: it_IT) |
| TRANSCRIPT_NAME | Varchar | 转录名称(示例: MULTI_SPEAKER_LONG_FORM_TRANSCRIPTION) |
| TRANSCRIPT_TOPIC | Varchar | 转录主题(示例: Insurance; Finance) |
| START_T | Float | 开始时间(示例: 322.56) |
| END_T | Float | 结束时间(示例: 328.08) |
使用示例
- 获取所有转录数据:
Select * from IT_IT_CALL_CENTRE_TRANSCRIPTIONS
业务需求
- 机器学习: 真实的呼叫中心转录文本对于AI训练至关重要,包含真实的客户语言和行为、问题解决流程、情绪背景、行业特定知识以及操作约束,反映了金融、医疗、电信、零售、旅游等关键行业实际处理问题的方式。
云区域可用性
- AWS: 非洲(开普敦)、亚太(雅加达)、亚太(孟买)、亚太(大阪)等49个以上区域。
法律条款
- 标准: Standard
提供商信息
- DATAmundi: 全球人类AI数据解决方案提供商,专注于创建、训练和评估为全球AI系统提供支持的多语言数据集。拥有超过14年的语言和数据专业知识,在200多种语言中提供高质量数据。



