CIViL

Name: CIViL
Creator: 印度理工学院巴特那分校, 国家技术学院巴特那分校, 布鲁诺·凯斯勒基金会
Published: 2025-11-19 01:29:28
License: 暂无描述

arXiv2025-11-19 更新2025-11-20 收录

下载链接：

https://www.kaggle.com/datasets/thoughtvector/customer-support-on-twitter

下载链接

链接失效反馈

官方服务：

资源简介：

CIViL是由多国研究机构联合构建的多模态客户投诉对话数据集，旨在推进细粒度投诉理解研究。该数据集包含2004个对话样本、7101条话语和4478张配图，数据源自Kaggle推特客服对话库并经过语义匹配增强。创建过程采用两阶段流水线：首先筛选苹果客服多轮对话并进行人工标注，随后通过CLIP算法从社交媒体平台爬取主题匹配的图像。本数据集主要应用于多模态对话系统领域，致力于解决传统文本模型在跨模态对齐和细粒度投诉分类方面的技术瓶颈。

CIViL is a multimodal customer complaint dialogue dataset jointly constructed by multinational research institutions, aiming to advance research on fine-grained complaint understanding. This dataset contains 2004 dialogue samples, 7101 utterances and 4478 paired images, with its data sourced from the Kaggle Twitter customer service dialogue corpus and enhanced via semantic matching. The construction of the dataset adopts a two-stage pipeline: first, multi-turn Apple customer service dialogues are screened and manually annotated, then images matching the corresponding themes are crawled from social media platforms using the CLIP algorithm. This dataset is primarily applied in the field of multimodal dialogue systems, dedicated to addressing the technical bottlenecks of traditional text models in cross-modal alignment and fine-grained complaint classification.

提供机构：

印度理工学院巴特那分校, 国家技术学院巴特那分校, 布鲁诺·凯斯勒基金会

创建时间：

2025-11-19

搜集汇总

数据集介绍

构建方式

在客户服务对话分析领域，CIViL数据集的构建采用了多阶段精细流程。该数据集基于公开的Kaggle客户支持对话语料，通过筛选苹果技术支持相关的多轮对话，并随机抽取2004个样本进行人工标注。为增强多模态特性，研究人员从社交媒体平台爬取了4478张相关图像，并利用CLIP语义匹配算法实现图像与对话的主题对齐，仅保留高置信度的配对以确保数据质量。标注过程由三位经验丰富的标注者独立完成，遵循严格的标注准则，并通过协商解决分歧，最终在方面类别和严重程度维度上分别达到了0.68和0.75的Fleiss‘s Kappa一致性系数。

使用方法

在多模态人工智能研究实践中，CIViL数据集为复杂场景下的投诉理解提供了标准实验平台。研究者可采用70%-10%-20%的标准划分方案进行模型训练与评估，通过端到端多任务学习框架同步处理方面检测和严重程度分类任务。该数据集特别适合验证混合专家系统等先进架构，其多模态特性支持跨模态注意力、语义对齐评分等技术的应用。评估时需综合考量准确率和宏F1分数等指标，尤其关注模型在视觉与文本信息分布不均的复杂案例中的表现，以全面衡量多模态推理能力。

背景与挑战

背景概述

CIViL数据集由印度理工学院帕特纳分校等机构的研究团队于2025年创建，旨在解决客户服务领域多模态细粒度投诉分析的核心问题。该数据集基于Kaggle客户支持对话语料构建，包含2004个多轮对话和4478张主题对齐图像，标注了软件、硬件等六个方面类别及四个严重性等级。其创新性在于融合对话上下文与视觉证据，推动了联合国可持续发展目标中产业创新与负责任消费的实践，为多模态对话理解研究提供了关键基准资源。

当前挑战

该数据集需解决多模态细粒度投诉分类的领域挑战，包括跨模态语义对齐、多轮对话中情绪演变的捕捉，以及视觉证据与文本描述的互补性建模。构建过程中面临标注一致性保障难题，需通过多阶段人工标注与CLIP算法匹配图像；同时，对话长度差异与视觉数据稀缺性要求设计分层过滤策略，确保模态间的高置信度关联，并采用Fleiss‘ Kappa指标验证标注者间一致性以维持数据质量。

常用场景

经典使用场景

在客户服务与情感计算领域，CIViL数据集通过整合多轮对话与视觉证据，为细粒度投诉分析提供了独特的研究平台。其经典应用场景集中于训练多模态模型，以识别对话中用户投诉的具体方面（如软件、硬件）与严重程度（如指责、不满），从而模拟真实客服环境中文本与图像的协同推理过程。

解决学术问题

该数据集解决了传统单模态投诉分析中语境缺失与情感粒度不足的学术难题，通过多模态对齐与链式推理机制，显著提升了方面类别检测与严重性分类的准确性。其意义在于推动了多模态对话理解的理论框架发展，并为联合国可持续发展目标中产业创新与负责任消费提供了可量化的技术支撑。

实际应用

在实际应用中，CIViL数据集能够赋能智能客服系统实现自动化工单分类与优先级排序，例如在电商平台中快速识别用户提交的屏幕截图与文本描述关联问题。其多模态分析能力还可应用于社交媒体舆情监控，帮助企业精准定位产品缺陷并优化服务响应机制。

数据集最近研究