English US Call Center Transcripts - 1M Words

Name: English US Call Center Transcripts - 1M Words
Creator: DATAmundi
Published: 2026-03-23 16:20:48
License: 暂无描述

Snowflake2026-03-23 更新2026-03-27 收录

下载链接：

https://app.snowflake.com/marketplace/listing/GZSYZVBO59

下载链接

链接失效反馈

官方服务：

资源简介：

**Dataset Overview** Nearly 1M words (5.1M Chars) of high-quality, human-validated English (US) agent–customer conversations captured from real-world, multi-domain call center interactions.The dataset reflects authentic customer service dialogue across industries, featuring natural speech patterns, real problem-solving flows, emotional variability, and domain-specific language that cannot be replicated through synthetic or scripted data. It is specifically designed for training and fine-tuning large language models, conversational agents, and enterprise automation solutions. **Our datasets include:** - Structured multi-turn dialogues - Speaker-separated conversations (agent and customer) - Domain-specific business interactions - Cleaned and normalized text for direct model ingestion - Compliance-ready data sourcing **Key AI use cases** - LLM fine-tuning for customer support copilots - Conversational AI and voice/chat agents - Automated ticket classification and routing - Sentiment and churn prediction models - Compliance monitoring and quality assurance automation This is a free, content-limited trial. For access to the full dataset, please reach out to our team.

数据集概览近100万词（510万字符）的高质量经人工验证的美式英语座席与客户对话数据，采集自真实场景下的多领域呼叫中心交互。本数据集涵盖跨行业的真实客服对话，具备自然口语模式、真实问题解决流程、情绪波动特征以及无法通过合成或脚本化数据复刻的领域专属术语。本数据集专为大语言模型（Large Language Model）、对话式AI智能体以及企业自动化解决方案的训练与微调而打造。数据集包含以下内容： - 结构化多轮对话 - 区分说话者的对话（座席与客户） - 领域专属商业交互场景 - 经清洗与标准化处理的文本，可直接用于模型输入 - 符合合规要求的数据来源核心AI应用场景： - 面向客服辅助机器人的大语言模型微调 - 对话式AI与语音/聊天智能体 - 工单自动分类与路由 - 情感分析与客户流失预测模型 - 合规监控与质量保障自动化本版本为内容受限的免费试用版。如需获取完整数据集，请联系我们的团队。

提供机构：

DATAmundi

创建时间：

2025-12-15

原始信息汇总

English US Call Center Transcripts - 1M Words 数据集概述

数据集基本信息

数据集名称: English US Call Center Transcripts - 1M Words
提供商: DATAmundi
访问模式: 免费试用 (Trial: Available)
数据产品类型: 静态数据产品 (Static data product)

数据集内容与规模

包含近100万单词（510万字符）的高质量、经过人工验证的英语（美国）客服与客户对话。
数据源自真实世界、多领域的呼叫中心互动记录。
包含结构化多轮对话、说话人分离的对话（客服与客户）、特定领域的业务互动。
文本经过清洗和标准化，可直接用于模型输入。
数据来源符合合规要求。

数据特征

反映跨行业的真实客户服务对话。
包含自然的语音模式、真实的问题解决流程、情感变化以及特定领域的语言。
数据非合成或脚本生成，具有不可复制的真实性。

设计用途

专门用于训练和微调大语言模型、对话代理和企业自动化解决方案。

关键AI应用场景

用于客户支持副驾驶的LLM微调。
对话式AI及语音/聊天代理。
自动工单分类与路由。
情感分析和客户流失预测模型。
合规监控与质量保证自动化。

数据结构（数据字典）

数据表名：EN_US_CALL_CENTRE_TRANSCRIPTIONS 包含列：

CONTENT (Varchar)
LANGUAGE (Varchar)
LOUDNESSLEVEL (Varchar)
PRIMARYTYPE (Varchar)
SEGMENTID (Varchar)
SPEAKERID (Varchar)
TRANSCRIPT_DOMAIN (Varchar)
TRANSCRIPT_ID (Varchar)
TRANSCRIPT_LANGUAGES (Varchar)
TRANSCRIPT_NAME (Varchar)
TRANSCRIPT_TOPIC (Varchar)
START_T (Float)
END_T (Float)

使用示例

获取所有转录数据的查询示例： sql Select * from EN_US_CALL_CENTRE_TRANSCRIPTIONS

业务需求背景

真实的呼叫中心转录文本是AI训练的关键任务数据。
包含真实的客户语言和行为、问题解决流程、情感上下文、行业特定知识以及操作约束。
涵盖金融、医疗保健、电信、零售、旅游等多个关键行业。
对于AI团队，此数据对于训练能够准确理解用户意图、处理长而复杂的对话、遵循业务流程、自然且共情地响应以及在合规框架内运作的模型至关重要。

提供商信息

DATAmundi是一家全球人类AI数据解决方案提供商，专注于创建、训练和评估为全球AI系统提供支持的多语言数据集。
拥有超过14年的语言和数据专业知识。
数据涵盖200多种语言，拥有超过26万名贡献者和超过2万名主题专家及领域专家组成的全球社区。

云区域可用性

云平台: AWS
可用区域示例: Africa (Cape Town), Asia Pacific (Jakarta), Asia Pacific (Mumbai), Asia Pacific (Osaka) 等。

法律与联系

法律条款: Standard
销售联系: sales@datamundi.ai
支持联系: https://datamundi.ai/contact/

重要说明

当前提供的是免费的、内容受限的试用版本。如需访问完整数据集，请联系DATAmundi团队。

5,000+

优质数据集

54 个

任务类型

进入经典数据集