Customer Complaints v0.1 (CuCom) Dataset
收藏github2025-01-31 更新2025-02-10 收录
下载链接:
https://github.com/vakyansh/cucom
下载链接
链接失效反馈官方服务:
资源简介:
这是一个多语言数据集,包含约10,000条用户与AI助手在银行和保险领域的客户服务对话。数据集以JSON格式存储,模拟了客户投诉解决场景。每个条目代表一个对话,对话双方分别是沮丧的客户(用户)和客户支持代理(基于LLM的助手),涵盖了投资延迟、额外费用、保险索赔、卡片封锁和服务失败等问题。
This is a multilingual dataset containing approximately 10,000 customer service dialogues between users and AI assistants in the banking and insurance sectors. Stored in JSON format, the dataset simulates customer complaint resolution scenarios. Each entry represents a dialogue between a frustrated customer (user) and an LLM-based customer support assistant, covering issues such as investment delays, additional fees, insurance claims, card blockages, and service failures.
创建时间:
2025-01-31
原始信息汇总
客户投诉v0.1 (CuCom) 数据集
一个包含约10,000个客户服务对话的多语言数据集,这些对话发生在用户与银行和保险领域的AI助手之间。
描述
此数据集包含以JSON格式模拟客户投诉解决场景的合成用户-代理对话。每个条目代表一位沮丧的客户(用户)与客户支持代理(基于LLM的助手)之间的对话,涵盖了投资延迟、额外费用、保险索赔、卡片锁定和服务故障等问题。
格式
json { "id": "conv_9855", "turns": [ {"role": "user", "content": "..."}, {"role": "assistant", "content": "..."} ] }
目标
- 为多语言客户支持训练/微调LLM
- 在代码混合语言理解上对模型进行基准测试
- 开发用于客户服务情感语调处理的系统
- 在现实世界场景中研究跨语言意图识别
语言
- 印地语(天城文)
- 印英混合语(印地语-英语代码混合)
- 转写印地语(罗马文)
- 英语
数据集详情
| 参数 | 值 |
|---|---|
| 对话数 | 9,858 |
| 平均对话轮数 | 8-16 |
| 领域 | 银行、保险 |
| 总轮数 | 136,642 |
| 文本特征 | 情感语言、俚语、代码切换 |
关键应用场景
-
多语言聊天机器人训练
- 处理代码混合的客户查询
- 管理沮丧/愤怒的用户语调
-
情感分析
- 检测投诉中的紧急/沮丧情绪
- 生成情感感知的响应
-
意图识别
- 分类投诉类型(SIP延迟、卡片锁定等)
- 实体提取(账号号码、索赔ID)
-
文化NLP研究
- 研究代码切换模式
- 分析非正式金融词汇
快速入门
- 下载数据集 bash wget https://github.com/vakyansh/cucom/raw/refs/heads/main/data/cucuom_v1.jsonl.zip
许可
贡献
我们欢迎以下方面的贡献:
- 额外的注释(情感标签、意图标签)
- 改进的翻译
- 更多的对话样本
- 更多的领域
如果您想要请求任何额外的领域,请打开一个issue或PR。
注意:样本中的敏感信息(账号号码、电话号码)是虚构的。真实的用户标识符已被匿名化。
搜集汇总
数据集介绍

构建方式
Customer Complaints v0.1 (CuCom) Dataset 乃一份多语言合成数据集,涵盖约10,000次银行及保险领域的用户与人工智能助手间的客户服务对话。各对话条目以JSON格式记录,模拟客户投诉解决场景,包含用户与基于LLM的客服代理之间的互动。
特点
该数据集特色在于其多语言性,包含印地语(天城文)、印英混合语(代码混合)、罗马字母转写的印地语及英语。对话内容展现出情感语言、俚语及代码切换等文本特征,涉及投资延迟、额外收费、保险理赔、卡片冻结与服务故障等多种问题。数据集旨在为多语言客户支持、代码混合语言理解、情感语调处理以及跨语言意图识别等领域的研究提供基准。
使用方法
用户可通过下载压缩包获取数据集,其中包含JSONL格式的对话数据。该数据集可应用于多语种聊天机器人训练、情感分析、意图识别以及文化NLP研究等关键用例。具体使用时,用户需解压文件,并根据需求对数据进行相应的预处理和模型训练。
背景与挑战
背景概述
Customer Complaints v0.1 (CuCom) 数据集,创建于近期,由研究团队精心构建,旨在推动多语言客户支持系统的训练与优化。该数据集汇集了大约10,000次用户与基于LLM的AI助手在银行和保险领域的客户服务对话,以JSON格式存储,模拟了客户投诉解决场景。核心研究问题聚焦于多语言客户支持、代码混合语言理解、客户服务中的情感语调处理以及实际场景下的跨语言意图识别,对自然语言处理领域产生了显著影响。
当前挑战
该数据集在构建过程中及后续应用中面临的挑战包括:如何有效处理代码混合语言的客户查询,尤其是在Hindi、Hinglish等语言环境中;如何在对话中准确识别并应对用户的情感语调,如愤怒或挫败感;以及如何精确分类投诉类型并提取关键实体信息。此外,数据集在模拟真实对话的多样性和复杂性方面亦存在挑战,这要求不断丰富数据样本和领域,以提升模型的泛化能力。
常用场景
经典使用场景
在自然语言处理与人工智能领域,CuCom数据集作为一份多语种合成用户代理对话集,其经典的使用场景主要集中于客户服务对话的模拟。该数据集特别适用于训练或微调大型语言模型,以便于它们能够处理多语种客户支持的需求,尤其是在银行和保险领域。通过模拟客户投诉解决的场景,该数据集为模型提供了丰富的情感语言、俚语及代码转换的文本特征,助力模型更好地理解和响应客户的需求。
实际应用
在实际应用中,CuCom数据集可以被用于开发能够处理多种语言和情绪的聊天机器人,进行情绪分析和意图识别。这些应用能够帮助金融机构提升客户服务质量,通过自动化系统更快地识别客户投诉的关键信息,从而提高服务效率和客户满意度。
衍生相关工作
基于CuCom数据集,研究者们已经衍生出多项相关工作,包括对多语种聊天机器人性能的评估、情绪标签和意图标记的进一步注释,以及对代码转换模式和文化特定语言特征的深入分析。这些相关工作不仅拓宽了自然语言处理的研究领域,也为金融NLP研究提供了新的视角和工具。
以上内容由遇见数据集搜集并总结生成



