Italian Call Center Transcripts - 170K Words

Name: Italian Call Center Transcripts - 170K Words
Creator: DATAmundi
Published: 2026-03-23 16:31:53
License: 暂无描述

Snowflake2026-03-23 更新2026-03-27 收录

下载链接：

https://app.snowflake.com/marketplace/listing/GZSYZVBO99

下载链接

链接失效反馈

官方服务：

资源简介：

DATAmundi is your data training partner for real world AI. We provide ready-to-use AI training datasets across text, speech, image, and video. Our quality multilingual, multimodal, data solutions help AI teams build high performing systems across the globe. **Description** **Dataset Overview** Nearly 170K words (1.2M Chars) of high-quality, human-validated Agent/Customer conversations captured from real-world, multi-domain call center interactions. The dataset reflects authentic customer service dialogue across industries, featuring natural speech patterns, real problem-solving flows, emotional variability, and domain-specific language that cannot be replicated through synthetic or scripted data. It is specifically designed for training and fine-tuning large language models, conversational agents, and enterprise automation solutions. **Our datasets include:** - Structured multi-turn dialogues - Speaker-separated conversations (agent and customer) - Domain-specific business interactions - Cleaned and normalized text for direct model ingestion - Compliance-ready data sourcing **Key AI use cases** - LLM fine-tuning for customer support copilots - Conversational AI and voice/chat agents - Automated ticket classification and routing - Sentiment and churn prediction models - Compliance monitoring and quality assurance automation This is a free, content-limited trial. For access to the full dataset, please reach out to our team.

提供机构：

DATAmundi

创建时间：

2026-02-19

原始信息汇总

Italian Call Center Transcripts - 170K Words 数据集概述

数据集基本信息

数据集名称: Italian Call Center Transcripts - 170K Words
提供商: DATAmundi
访问模式: 免费试用（内容有限）
数据产品类型: 静态数据产品

数据集描述

内容: 近17万单词（120万字符）的高质量、经过人工验证的客服人员/客户对话记录，源自真实世界、多领域的呼叫中心互动。
特点: 反映了跨行业的真实客户服务对话，包含自然语音模式、真实问题解决流程、情绪变化以及领域特定语言，无法通过合成或脚本数据复制。
设计目的: 专门用于训练和微调大语言模型、对话代理和企业自动化解决方案。

数据集包含内容

结构化的多轮对话
说话人分离的对话（客服人员和客户）
特定领域的业务互动
经过清理和规范化的文本，可直接供模型使用
符合合规要求的数据来源

关键AI应用场景

用于客户支持助手的LLM微调
对话式AI和语音/聊天代理
自动工单分类和路由
情感和流失预测模型
合规监控和质量保证自动化

数据字典（表: IT_IT_CALL_CENTRE_TRANSCRIPTIONS）

列名	数据类型	描述/示例
CONTENT	Varchar	人类转录文本
LANGUAGE	Varchar	语言代码（示例: it_IT）
LOUDNESSLEVEL	Varchar	响度级别（示例: Normal）
PRIMARYTYPE	Varchar	主要类型（示例: Speech）
SEGMENTID	Varchar	片段ID（示例: 86）
SEGMENTLANGUAGES	Varchar	片段语言（示例: it_IT）
SPEAKERID	Varchar	说话人ID（示例: it_IT_1baa3da9-9ea3-4b91-a4c1-9ef113d804fa_2）
TRANSCRIPT_DOMAIN	Varchar	转录领域（示例: Call-center）
TRANSCRIPT_ID	Varchar	转录ID（示例: it_IT_1baa3da9-9ea3-4b91-a4c1-9ef113d804fa）
TRANSCRIPT_LANGUAGES	Varchar	转录语言（示例: it_IT）
TRANSCRIPT_NAME	Varchar	转录名称（示例: MULTI_SPEAKER_LONG_FORM_TRANSCRIPTION）
TRANSCRIPT_TOPIC	Varchar	转录主题（示例: Insurance; Finance）
START_T	Float	开始时间（示例: 322.56）
END_T	Float	结束时间（示例: 328.08）

使用示例

获取所有转录数据: Select * from IT_IT_CALL_CENTRE_TRANSCRIPTIONS

业务需求

机器学习: 真实的呼叫中心转录文本对于AI训练至关重要，包含真实的客户语言和行为、问题解决流程、情绪背景、行业特定知识以及操作约束，反映了金融、医疗、电信、零售、旅游等关键行业实际处理问题的方式。

云区域可用性

AWS: 非洲（开普敦）、亚太（雅加达）、亚太（孟买）、亚太（大阪）等49个以上区域。

法律条款

标准: Standard

提供商信息

DATAmundi: 全球人类AI数据解决方案提供商，专注于创建、训练和评估为全球AI系统提供支持的多语言数据集。拥有超过14年的语言和数据专业知识，在200多种语言中提供高质量数据。

5,000+

优质数据集

54 个

任务类型

进入经典数据集