English US Call Center Transcripts - 1M Words
收藏Snowflake2026-03-23 更新2026-03-27 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZSYZVBO59
下载链接
链接失效反馈官方服务:
资源简介:
**Dataset Overview**
Nearly 1M words (5.1M Chars) of high-quality, human-validated English (US) agent–customer conversations captured from real-world, multi-domain call center interactions.The dataset reflects authentic customer service dialogue across industries, featuring natural speech patterns, real problem-solving flows, emotional variability, and domain-specific language that cannot be replicated through synthetic or scripted data.
It is specifically designed for training and fine-tuning large language models, conversational agents, and enterprise automation solutions.
**Our datasets include:**
- Structured multi-turn dialogues
- Speaker-separated conversations (agent and customer)
- Domain-specific business interactions
- Cleaned and normalized text for direct model ingestion
- Compliance-ready data sourcing
**Key AI use cases**
- LLM fine-tuning for customer support copilots
- Conversational AI and voice/chat agents
- Automated ticket classification and routing
- Sentiment and churn prediction models
- Compliance monitoring and quality assurance automation
This is a free, content-limited trial. For access to the full dataset, please reach out to our team.
数据集概览
近100万词(510万字符)的高质量经人工验证的美式英语座席与客户对话数据,采集自真实场景下的多领域呼叫中心交互。本数据集涵盖跨行业的真实客服对话,具备自然口语模式、真实问题解决流程、情绪波动特征以及无法通过合成或脚本化数据复刻的领域专属术语。
本数据集专为大语言模型(Large Language Model)、对话式AI智能体以及企业自动化解决方案的训练与微调而打造。
数据集包含以下内容:
- 结构化多轮对话
- 区分说话者的对话(座席与客户)
- 领域专属商业交互场景
- 经清洗与标准化处理的文本,可直接用于模型输入
- 符合合规要求的数据来源
核心AI应用场景:
- 面向客服辅助机器人的大语言模型微调
- 对话式AI与语音/聊天智能体
- 工单自动分类与路由
- 情感分析与客户流失预测模型
- 合规监控与质量保障自动化
本版本为内容受限的免费试用版。如需获取完整数据集,请联系我们的团队。
提供机构:
DATAmundi
创建时间:
2025-12-15
原始信息汇总
English US Call Center Transcripts - 1M Words 数据集概述
数据集基本信息
- 数据集名称: English US Call Center Transcripts - 1M Words
- 提供商: DATAmundi
- 访问模式: 免费试用 (Trial: Available)
- 数据产品类型: 静态数据产品 (Static data product)
数据集内容与规模
- 包含近100万单词(510万字符)的高质量、经过人工验证的英语(美国)客服与客户对话。
- 数据源自真实世界、多领域的呼叫中心互动记录。
- 包含结构化多轮对话、说话人分离的对话(客服与客户)、特定领域的业务互动。
- 文本经过清洗和标准化,可直接用于模型输入。
- 数据来源符合合规要求。
数据特征
- 反映跨行业的真实客户服务对话。
- 包含自然的语音模式、真实的问题解决流程、情感变化以及特定领域的语言。
- 数据非合成或脚本生成,具有不可复制的真实性。
设计用途
- 专门用于训练和微调大语言模型、对话代理和企业自动化解决方案。
关键AI应用场景
- 用于客户支持副驾驶的LLM微调。
- 对话式AI及语音/聊天代理。
- 自动工单分类与路由。
- 情感分析和客户流失预测模型。
- 合规监控与质量保证自动化。
数据结构(数据字典)
数据表名:EN_US_CALL_CENTRE_TRANSCRIPTIONS
包含列:
CONTENT(Varchar)LANGUAGE(Varchar)LOUDNESSLEVEL(Varchar)PRIMARYTYPE(Varchar)SEGMENTID(Varchar)SPEAKERID(Varchar)TRANSCRIPT_DOMAIN(Varchar)TRANSCRIPT_ID(Varchar)TRANSCRIPT_LANGUAGES(Varchar)TRANSCRIPT_NAME(Varchar)TRANSCRIPT_TOPIC(Varchar)START_T(Float)END_T(Float)
使用示例
获取所有转录数据的查询示例: sql Select * from EN_US_CALL_CENTRE_TRANSCRIPTIONS
业务需求背景
- 真实的呼叫中心转录文本是AI训练的关键任务数据。
- 包含真实的客户语言和行为、问题解决流程、情感上下文、行业特定知识以及操作约束。
- 涵盖金融、医疗保健、电信、零售、旅游等多个关键行业。
- 对于AI团队,此数据对于训练能够准确理解用户意图、处理长而复杂的对话、遵循业务流程、自然且共情地响应以及在合规框架内运作的模型至关重要。
提供商信息
- DATAmundi是一家全球人类AI数据解决方案提供商,专注于创建、训练和评估为全球AI系统提供支持的多语言数据集。
- 拥有超过14年的语言和数据专业知识。
- 数据涵盖200多种语言,拥有超过26万名贡献者和超过2万名主题专家及领域专家组成的全球社区。
云区域可用性
- 云平台: AWS
- 可用区域示例: Africa (Cape Town), Asia Pacific (Jakarta), Asia Pacific (Mumbai), Asia Pacific (Osaka) 等。
法律与联系
- 法律条款: Standard
- 销售联系: sales@datamundi.ai
- 支持联系: https://datamundi.ai/contact/
重要说明
- 当前提供的是免费的、内容受限的试用版本。如需访问完整数据集,请联系DATAmundi团队。



