Hindi Call Center Transcripts - 400K Words

Name: Hindi Call Center Transcripts - 400K Words
Creator: DATAmundi
Published: 2026-03-23 16:32:49
License: 暂无描述

Snowflake2026-03-23 更新2026-03-27 收录

下载链接：

https://app.snowflake.com/marketplace/listing/GZSYZVBO95

下载链接

链接失效反馈

官方服务：

资源简介：

**Dataset Overview** Nearly 400K words (2.5M Chars) of high-quality, human-validated Hindi Agent/Customer conversations captured from real-world, multi-domain call center interactions. The dataset reflects authentic customer service dialogue across industries, featuring natural speech patterns, real problem-solving flows, emotional variability, and domain-specific language that cannot be replicated through synthetic or scripted data. It is specifically designed for training and fine-tuning large language models, conversational agents, and enterprise automation solutions. **Our datasets include:** - Structured multi-turn dialogues - Speaker-separated conversations (agent and customer) - Domain-specific business interactions - Cleaned and normalized text for direct model ingestion - Compliance-ready data sourcing **Key AI use cases** - LLM fine-tuning for customer support copilots - Conversational AI and voice/chat agents - Automated ticket classification and routing - Sentiment and churn prediction models - Compliance monitoring and quality assurance automation This is a free, content-limited trial. For access to the full dataset, please reach out to our team.

提供机构：

DATAmundi

创建时间：

2026-02-19

原始信息汇总

Hindi Call Center Transcripts - 400K Words 数据集概述

数据集基本信息

数据集名称: Hindi Call Center Transcripts - 400K Words
提供商: DATAmundi
访问模式: 免费试用
数据产品类型: 静态数据产品

数据集内容描述

数据规模: 近40万单词（250万字符）。
数据性质: 高质量、经过人工验证的印地语客服（坐席/客户）对话，源自真实世界的多领域呼叫中心互动。
数据特点:
- 反映跨行业的真实客户服务对话。
- 包含自然的语音模式、真实的问题解决流程、情感变化以及特定领域的语言。
- 非合成或脚本数据。
设计用途: 专门用于训练和微调大语言模型、对话代理和企业自动化解决方案。
数据集包含内容:
- 结构化的多轮对话。
- 按说话者分离的对话（坐席和客户）。
- 特定领域的业务互动。
- 经过清理和规范化的文本，可直接供模型使用。
- 符合合规要求的数据源。

关键AI应用场景

用于客户支持副驾驶的LLM微调。
对话式AI及语音/聊天代理。
自动工单分类和路由。
情感和客户流失预测模型。
合规监控和质量保证自动化。

数据字典（表结构）

表名: HI_IN_CALL_CENTRE_TRANSCRIPTIONS
列定义:
- CONTENT: Varchar
- LANGUAGE: Varchar
- LOUDNESSLEVEL: Varchar
- PRIMARYTYPE: Varchar
- SEGMENTID: Varchar
- SPEAKERID: Varchar
- SEGMENTLANGUAGES: Varchar
- TRANSCRIPT_DOMAIN: Varchar
- TRANSCRIPT_ID: Varchar
- TRANSCRIPT_LANGUAGES: Varchar
- TRANSCRIPT_NAME: Varchar
- TRANSCRIPT_TOPIC: Varchar
- START_T: Float
- END_T: Float

数据预览示例

数据行示例显示了来自保险、假日休闲、酒店、电信等多个领域（TRANSCRIPT_TOPIC）的对话片段，包含语言、说话者、时间戳等信息。

使用示例

获取所有转录数据: sql Select * from HI_IN_CALL_CENTRE_TRANSCRIPTIONS

提供商其他数据集（来自DATAmundi）

French Canadian Call Center Transcripts - 20K Words
English AU Call Center Human-Validated Transcripts - 570K words
Italian Call Center Transcripts - 170K Words
Portuguese Brazilian Call Center Transcripts - 320K words
Korean Call Center Transcripts - 170K Chars
English UK Call Center Transcripts - 1M Words

类别

AI & ML
Machine Learning

云区域可用性（AWS）

Africa (Cape Town)
Asia Pacific (Jakarta)
Asia Pacific (Mumbai)
Asia Pacific (Osaka)
（另有49个区域可用）

法律条款

Standard

访问说明

此为免费的、内容有限的试用版。如需访问完整数据集，请联系DATAmundi团队。

5,000+

优质数据集

54 个

任务类型

进入经典数据集