Customer Support Conversations Dataset (CSConDa)

Name: Customer Support Conversations Dataset (CSConDa)
Creator: 胡志明市科技大学计算机科学与工程学院 URA研究组
Published: 2025-07-30 18:14:31
License: 暂无描述

arXiv2025-07-30 更新2025-08-01 收录

下载链接：

https://huggingface.co/CSConDa

下载链接

链接失效反馈

官方服务：

资源简介：

CSConDa是一个高质量的基准数据集，包含超过9,000个问答对，从越南一家大型软件公司的客户与人工顾问的互动中精心挑选而来。数据集涵盖了多样化的服务相关主题，包括价格查询、产品可用性和技术故障排除等。CSConDa作为评估ViLLMs在现实场景中的代表性的数据集，为评估ViLLMs提供了全面的数据集和性能比较，提供了有关模型性能的关键见解。数据集在Hugging Face上公开发布。

CSConDa is a high-quality benchmark dataset containing over 9,000 question-answer pairs, meticulously curated from the interactions between customers and human consultants of a large Vietnamese software company. This dataset covers a diverse array of service-related topics, including price inquiries, product availability, technical troubleshooting, and more. As a representative dataset for evaluating ViLLMs in real-world scenarios, CSConDa provides comprehensive benchmark resources and performance comparison baselines for ViLLM evaluation, offering critical insights into model performance. The dataset is publicly available on Hugging Face.

提供机构：

胡志明市科技大学计算机科学与工程学院 URA研究组

创建时间：

2025-07-30

搜集汇总

数据集介绍

构建方式

在越南语大语言模型（ViLLMs）快速发展的背景下，CSConDa数据集通过五阶段流程构建：招募标注团队、收集真实客户对话、提取问答对、验证分类及标准化分割。数据源自越南大型软件公司DooPage的多渠道客服平台，经过严格匿名化处理，最终形成涵盖定价咨询、产品可用性及技术故障排除等多样化服务主题的9,000余组高质量问答对。该构建过程特别注重保留客户对话中的非正式语言特征（如缩略语、混合编码和拼写错误），并通过专家监督确保数据安全与分类准确性。

特点

作为首个越南语客服对话基准数据集，CSConDa的突出特点体现在三方面：其一，真实场景下的语言多样性，包含11.8%的缩略语和6.3%的术语缩写，精准反映越南客户服务的非正式交互特征；其二，结构化难度分级，将问答对划分为通用型、简单型和复杂型三类，其中复杂型问题平均长度达34.39词，显著高于通用型的9.18词；其三，细粒度标注体系，除基础问答对外，还统计词汇量、句法错误等8类语言学特征，为模型评估提供多维分析基础。这些特性使其成为评估ViLLMs在实际客服场景中语言适应性与推理能力的理想基准。

使用方法

该数据集支持多维度评估框架的应用：研究者可通过测试集的1,500个平衡分布样本，采用零样本提示策略测试ViLLMs的生成能力；结合BLEU-2、ROUGE-L等6项自动指标衡量响应准确性，并利用基于GPT-4的幻觉评分检测事实性错误；更独特的句法分析模块可量化模型输出的POS比例（内容词/功能词）、依存距离等5项结构性指标。企业用户可依据类型化性能对比（如Vistral 7B在复杂问题上BERTScore达0.667）选择适配模型，或通过暴露的句法僵化问题（ViLLMs平均依存长度超人类27%）指导模型优化。数据集已在Hugging Face平台开源，配套提供分类标准说明和基准模型排名。

背景与挑战

背景概述

Customer Support Conversations Dataset (CSConDa) 是由越南胡志明市科技大学（HCMUT）的URA研究团队于2025年创建的高质量基准数据集，旨在填补越南大型语言模型（ViLLMs）在客户支持领域系统性评估的空白。该数据集包含超过9,000个问答对，源自越南某大型软件公司的真实客户与人工顾问的交互记录，涵盖定价查询、产品可用性和技术故障排除等多种服务相关主题。CSConDa的推出为评估ViLLMs在真实场景中的表现提供了重要工具，并为开发下一代问答系统提供了定量评估数据和全面的性能比较。

当前挑战

CSConDa面临的挑战主要包括两个方面：1) 领域问题的挑战：客户支持领域的问答通常涉及非结构化的查询，包括越南语中的缩略语、俚语和领域特定术语，这要求模型具备强大的语言理解和生成能力；2) 构建过程中的挑战：数据集的构建需要从真实对话中提取高质量的问答对，同时确保数据的匿名化和安全性，避免泄露敏感信息。此外，数据集还需要覆盖多样化的服务主题和不同复杂度的对话类型，以全面评估模型的性能。

常用场景

经典使用场景

在客户服务领域，CSConDa数据集为越南大型语言模型（ViLLMs）的评估提供了标准化的对话场景。该数据集包含超过9,000个问答对，覆盖了价格查询、产品可用性、技术故障排除等多种服务相关主题，能够全面测试模型在真实客户支持对话中的表现。通过模拟实际客户与顾问的互动，CSConDa为研究人员提供了一个高度真实的测试环境，帮助评估模型在非结构化对话中的语言理解和生成能力。

解决学术问题

CSConDa解决了越南语言模型在客户服务领域缺乏系统性评估的问题。传统的数据集多基于结构化文本，如维基百科或新闻文章，难以反映真实客户对话中的非正式语言和领域特定术语。该数据集填补了这一空白，为研究人员提供了评估模型在真实场景中处理非正式语言、缩写、代码转换等复杂语言现象的能力。此外，它还支持对模型在准确性、流畅性和一致性等方面的内在性能进行量化分析，为模型优化提供了明确方向。

衍生相关工作

CSConDa的推出催生了一系列针对越南语言模型在客户服务领域的研究工作。例如，基于该数据集的评估框架被用于比较11种轻量级开源ViLLMs的性能，揭示了模型在真实对话中的优缺点。此外，一些研究开始探索如何通过结构感知的微调方法优化模型，以提升其在客户支持任务中的表现。这些工作不仅推动了越南语言模型的发展，也为其他低资源语言的类似研究提供了借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集