five

Conversational Data Retrieval (CDR) benchmark

收藏
arXiv2025-10-03 更新2025-11-20 收录
下载链接:
https://github.com/l-yohai/CDR-Benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
Conversational Data Retrieval (CDR) benchmark是一个用于评估对话数据检索系统的全面测试集。它包含1.6k个查询和9.1k个对话,为衡量对话数据检索性能提供了一个可靠的标准。该数据集的创建过程包括数据收集、查询设计、对话合成和相关性映射等多个阶段,旨在解决传统信息检索方法在对话数据上的局限性。数据集的应用领域包括产品改进、用户满意度分析、对话流程分析等,为对话数据分析和利用提供了重要的参考和工具。

The Conversational Data Retrieval (CDR) benchmark is a comprehensive test set for evaluating conversational data retrieval systems. It contains 1.6 thousand queries and 9.1 thousand dialogues, providing a reliable standard for measuring the performance of conversational data retrieval. The construction of this dataset involves multiple stages including data collection, query design, dialogue synthesis, and relevance mapping, aiming to address the limitations of traditional information retrieval methods when applied to conversational data. The applicable fields of this dataset cover product improvement, user satisfaction analysis, dialogue flow analysis and other scenarios, offering important references and tools for the analysis and utilization of conversational data.
提供机构:
Coxwave, Kakaobank, Kyung Hee University, Seoul National University
创建时间:
2025-10-03
搜集汇总
数据集介绍
main_image_url
构建方式
在对话数据分析领域,CDR基准数据集通过多阶段流程精心构建。研究团队整合了11个开源对话数据集,运用NeMo Curator框架对240万条原始对话进行质量过滤与去重处理,最终获得60万条高质量对话实例。基于20位领域专家的工业需求分析,确立了情感反馈、意图识别等五大核心任务维度,并设计了130个查询模板与510个占位符组合,通过专家标注与大语言模型合成相结合的方式,构建出包含1583个查询与9146条对话的标准化评测集合。
特点
该数据集展现出对话检索领域的独特特征,其查询任务覆盖情感分析、意图识别等五大维度,其中意图与目的类查询占比最高达36.1%。每条查询平均关联20.44条相关对话,对话平均包含5.4轮交互与464个词汇单元,体现了真实对话的复杂性与多样性。数据集特别关注对话特有的隐式状态识别、轮次动态变化等挑战,通过平衡的领域分布与严格的质量验证,为评估对话检索系统提供了全面而可靠的基准。
使用方法
该数据集支持三种不同粒度的检索评估模式:基于单轮对话的细粒度评估、采用滑动窗口的三轮对话块评估,以及面向完整会话的宏观评估。研究人员可通过标准化接口加载查询-对话对,使用NDCG@10、召回率等指标全面衡量检索模型性能。数据集特别适用于评估嵌入模型在对话结构理解、上下文关联等方面的能力,为开发面向对话数据的专用检索架构提供实证基础,推动对话分析技术的工业应用落地。
背景与挑战
背景概述
随着大型语言模型驱动的生成式人工智能广泛应用,海量对话数据成为洞察用户行为与系统性能的重要资源。2025年由Coxwave联合卡卡奥银行、庆熙大学及首尔国立大学研究团队发布的对话数据检索基准,首次针对产品洞察场景构建了包含1,583个查询与9,146组对话的评估体系。该基准聚焦情感反馈、意图识别等五大分析维度,通过系统化评估揭示现有嵌入模型在对话结构理解上的显著局限,为对话分析领域建立了可量化的技术标尺。
当前挑战
对话数据检索面临双重挑战:在领域问题层面,传统检索方法难以捕捉对话特有的隐含状态识别、话轮动态与上下文指代等复杂特征;在构建过程中,需克服工业数据隐私限制与标注成本压力,通过合成数据生成与多阶段验证机制确保评估信度。现有模型在会话动态分析任务中NDCG@10指标均低于0.17,表明对话流结构理解仍是亟待突破的技术瓶颈。
常用场景
经典使用场景
在对话数据分析领域,Conversational Data Retrieval (CDR) benchmark 为评估会话数据检索系统提供了首个标准化测试框架。该数据集通过涵盖情感反馈、意图识别等五大分析维度,支持研究者系统评估嵌入模型在多轮对话中的语义理解能力。其经典应用场景包括构建对话记忆系统、优化产品洞察流程,以及推动面向会话结构的检索算法创新。
解决学术问题
该基准数据集有效解决了会话数据检索中的三大核心挑战:隐式状态识别、对话轮次动态建模与上下文指代消解。通过提供1.6k查询与9.1k对话的标注数据,它填补了传统文档检索模型与会话数据结构之间的评估鸿沟,为开发专用于对话流分析的神经网络架构奠定了实证基础。
衍生相关工作
该数据集已催生多项衍生研究,包括基于层次化语义索引的零样本检索方法HeisIR、面向对话动态的专用嵌入模型优化,以及结合强化学习的多轮对话匹配框架。这些工作通过扩展CDR的评估维度,进一步推动了会话理解与交互式检索技术的融合发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作