five

cci-dataset-v2

收藏
Hugging Face2025-01-10 更新2025-01-11 收录
下载链接:
https://huggingface.co/datasets/raghavdw/cci-dataset-v2
下载链接
链接失效反馈
官方服务:
资源简介:
CCI Dataset V2是一个综合性的航空公司客户服务交互数据集,包含15,598条记录,涵盖了意图预测、情感分析、同理心评分和对话主题分类等丰富的注释信息。数据集主要用于文本分类和特征提取任务,包括意图分类、情感分类、主题分类等。数据集分为训练集和测试集,分别占80%和20%。数据集的创建是为了支持MLOps认证项目的毕业设计,旨在构建一个客户智能平台,用于客户服务聊天机器人、BERT分类器以及ML训练和客户服务增强的分析和洞察平台。

CCI Dataset V2 is a comprehensive airline customer service interaction dataset comprising 15,598 records, featuring rich annotated information spanning intent prediction, sentiment analysis, empathy scoring and conversation topic classification. The dataset is primarily utilized for text classification and feature extraction tasks, such as intent classification, sentiment classification, topic classification and other related tasks. It is split into training and test subsets, with respective proportions of 80% and 20%. This dataset was developed to support the graduation project of an MLOps certification program, which aims to construct a customer intelligence platform for customer service chatbots, BERT classifiers, as well as analysis and insight platforms for ML training and customer service enhancement.
创建时间:
2025-01-08
搜集汇总
数据集介绍
main_image_url
构建方式
CCI Dataset V2 是一个基于航空公司客户服务对话的综合性数据集,主要来源于智能虚拟助手(IVA)的交互记录。该数据集通过对原始数据进行机器生成注释,并结合人工审核,确保了数据的准确性和可靠性。数据集的构建过程包括从Kaggle上的“Relational Strategies in Customer Service (RSICS)”数据集中提取原始对话,并在此基础上进行意图预测、情感分析、同理心评分等多维度标注。数据集的训练集和测试集分别占80%和20%,确保了模型训练与评估的有效性。
特点
CCI Dataset V2 包含了15,598条客户服务对话记录,每条记录均标注了意图预测、情感分析、同理心评分、话题分类等丰富信息。数据集的特点在于其多维度的标注体系,涵盖了对话意图、情感极性、同理心表现、主动倾听质量等多个方面。此外,数据集还提供了响应风格智能分类(RSIC)评分,进一步丰富了对话分析的维度。这些特征使得该数据集特别适用于开发和改进客户服务AI系统,尤其是在航空业等高要求服务环境中。
使用方法
CCI Dataset V2 可用于多种自然语言处理任务,包括对话意图分类、情感分析、同理心检测、话题分类等。用户可以通过加载数据集,提取每条记录的文本和标注信息,用于训练和评估机器学习模型。数据集的结构清晰,每条记录包含唯一的索引、对话文本、预测意图、情感标签、同理心评分等字段,便于直接用于模型训练。此外,数据集已划分为训练集和测试集,用户可以直接使用这些划分进行模型开发和性能评估。
背景与挑战
背景概述
CCI Dataset V2 是一个专注于航空公司客户服务交互的数据集,旨在通过智能虚拟助手(IVA)的对话数据,提升客户服务系统的智能化水平。该数据集由15,598条对话组成,涵盖了意图预测、情感分析、同理心评分和对话主题分类等多个维度的标注。数据集最初来源于航空公司的客户服务交互,为研究虚拟助手在航空领域中的表现提供了宝贵的数据支持。该数据集的创建源于一个MLOps认证项目的毕业设计,旨在构建一个客户智能平台,用于训练和改进客户服务聊天机器人及BERT分类器。
当前挑战
CCI Dataset V2 面临的挑战主要集中在两个方面。首先,在领域问题方面,尽管数据集提供了丰富的标注信息,但意图分类和情感分析的准确性仍然受到模型生成标注的限制,可能存在偏差或错误。其次,在数据构建过程中,由于数据来源于真实的客户服务交互,可能存在特定模式或偏见,例如某些客户群体的表达方式可能未被充分覆盖。此外,尽管部分标注经过人工检查,但整体标注的准确性和一致性仍需进一步验证。这些挑战为数据集的广泛应用和模型训练带来了潜在的限制。
常用场景
经典使用场景
CCI Dataset V2 数据集在航空客户服务领域的智能虚拟助手(IVA)对话分析中具有广泛的应用。通过对客户对话的意图预测、情感分析、同理心评分和话题分类,该数据集为研究人员提供了丰富的多任务学习场景。特别是在意图分类和情感分析任务中,数据集能够帮助模型理解客户的需求和情绪状态,从而优化虚拟助手的响应策略。
实际应用
在实际应用中,CCI Dataset V2 被广泛用于航空客户服务系统的优化。通过训练基于该数据集的模型,航空公司能够提升智能虚拟助手的服务质量,减少客户投诉并提高客户满意度。例如,模型可以根据客户的情感状态动态调整响应策略,或在检测到负面情绪时及时转接人工客服。此外,该数据集还可用于开发客户服务分析平台,帮助企业洞察客户需求并优化服务流程。
衍生相关工作
CCI Dataset V2 的发布催生了一系列相关研究工作。例如,基于该数据集的意图分类和情感分析模型在多个学术竞赛中取得了显著成果。此外,研究人员利用该数据集开发了多任务学习框架,将意图分类、情感分析和同理心评分任务结合,显著提升了模型的综合性能。同时,该数据集还被用于研究对话系统的主动倾听能力,推动了对话系统在情感智能和客户服务领域的进一步发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作