five

English US Call Center Transcripts - 1M Words

收藏
Snowflake2026-03-23 更新2026-03-27 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZSYZVBO59
下载链接
链接失效反馈
官方服务:
资源简介:
**Dataset Overview** Nearly 1M words (5.1M Chars) of high-quality, human-validated English (US) agent–customer conversations captured from real-world, multi-domain call center interactions.The dataset reflects authentic customer service dialogue across industries, featuring natural speech patterns, real problem-solving flows, emotional variability, and domain-specific language that cannot be replicated through synthetic or scripted data. It is specifically designed for training and fine-tuning large language models, conversational agents, and enterprise automation solutions. **Our datasets include:** - Structured multi-turn dialogues - Speaker-separated conversations (agent and customer) - Domain-specific business interactions - Cleaned and normalized text for direct model ingestion - Compliance-ready data sourcing **Key AI use cases** - LLM fine-tuning for customer support copilots - Conversational AI and voice/chat agents - Automated ticket classification and routing - Sentiment and churn prediction models - Compliance monitoring and quality assurance automation This is a free, content-limited trial. For access to the full dataset, please reach out to our team.

数据集概览 近100万词(510万字符)的高质量经人工验证的美式英语座席与客户对话数据,采集自真实场景下的多领域呼叫中心交互。本数据集涵盖跨行业的真实客服对话,具备自然口语模式、真实问题解决流程、情绪波动特征以及无法通过合成或脚本化数据复刻的领域专属术语。 本数据集专为大语言模型(Large Language Model)、对话式AI智能体以及企业自动化解决方案的训练与微调而打造。 数据集包含以下内容: - 结构化多轮对话 - 区分说话者的对话(座席与客户) - 领域专属商业交互场景 - 经清洗与标准化处理的文本,可直接用于模型输入 - 符合合规要求的数据来源 核心AI应用场景: - 面向客服辅助机器人的大语言模型微调 - 对话式AI与语音/聊天智能体 - 工单自动分类与路由 - 情感分析与客户流失预测模型 - 合规监控与质量保障自动化 本版本为内容受限的免费试用版。如需获取完整数据集,请联系我们的团队。
提供机构:
DATAmundi
创建时间:
2025-12-15
原始信息汇总

English US Call Center Transcripts - 1M Words 数据集概述

数据集基本信息

  • 数据集名称: English US Call Center Transcripts - 1M Words
  • 提供商: DATAmundi
  • 访问模式: 免费试用 (Trial: Available)
  • 数据产品类型: 静态数据产品 (Static data product)

数据集内容与规模

  • 包含近100万单词(510万字符)的高质量、经过人工验证的英语(美国)客服与客户对话。
  • 数据源自真实世界、多领域的呼叫中心互动记录。
  • 包含结构化多轮对话、说话人分离的对话(客服与客户)、特定领域的业务互动。
  • 文本经过清洗和标准化,可直接用于模型输入。
  • 数据来源符合合规要求。

数据特征

  • 反映跨行业的真实客户服务对话。
  • 包含自然的语音模式、真实的问题解决流程、情感变化以及特定领域的语言。
  • 数据非合成或脚本生成,具有不可复制的真实性。

设计用途

  • 专门用于训练和微调大语言模型、对话代理和企业自动化解决方案。

关键AI应用场景

  • 用于客户支持副驾驶的LLM微调。
  • 对话式AI及语音/聊天代理。
  • 自动工单分类与路由。
  • 情感分析和客户流失预测模型。
  • 合规监控与质量保证自动化。

数据结构(数据字典)

数据表名:EN_US_CALL_CENTRE_TRANSCRIPTIONS 包含列:

  • CONTENT (Varchar)
  • LANGUAGE (Varchar)
  • LOUDNESSLEVEL (Varchar)
  • PRIMARYTYPE (Varchar)
  • SEGMENTID (Varchar)
  • SPEAKERID (Varchar)
  • TRANSCRIPT_DOMAIN (Varchar)
  • TRANSCRIPT_ID (Varchar)
  • TRANSCRIPT_LANGUAGES (Varchar)
  • TRANSCRIPT_NAME (Varchar)
  • TRANSCRIPT_TOPIC (Varchar)
  • START_T (Float)
  • END_T (Float)

使用示例

获取所有转录数据的查询示例: sql Select * from EN_US_CALL_CENTRE_TRANSCRIPTIONS

业务需求背景

  • 真实的呼叫中心转录文本是AI训练的关键任务数据。
  • 包含真实的客户语言和行为、问题解决流程、情感上下文、行业特定知识以及操作约束。
  • 涵盖金融、医疗保健、电信、零售、旅游等多个关键行业。
  • 对于AI团队,此数据对于训练能够准确理解用户意图、处理长而复杂的对话、遵循业务流程、自然且共情地响应以及在合规框架内运作的模型至关重要。

提供商信息

  • DATAmundi是一家全球人类AI数据解决方案提供商,专注于创建、训练和评估为全球AI系统提供支持的多语言数据集。
  • 拥有超过14年的语言和数据专业知识。
  • 数据涵盖200多种语言,拥有超过26万名贡献者和超过2万名主题专家及领域专家组成的全球社区。

云区域可用性

  • 云平台: AWS
  • 可用区域示例: Africa (Cape Town), Asia Pacific (Jakarta), Asia Pacific (Mumbai), Asia Pacific (Osaka) 等。

法律与联系

  • 法律条款: Standard
  • 销售联系: sales@datamundi.ai
  • 支持联系: https://datamundi.ai/contact/

重要说明

  • 当前提供的是免费的、内容受限的试用版本。如需访问完整数据集,请联系DATAmundi团队。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作