CDR Benchmark

github2025-10-01 更新2025-10-02 收录

下载链接：

https://github.com/l-yohai/CDR-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

对话数据检索（CDR）基准提供了一个系统框架，用于评估对话数据集上的检索模型。与传统的文档检索不同，对话数据具有多轮复杂性、隐式信号和时间进展，传统方法无法捕捉。该基准包括五个关键分析领域的1,583个查询和9,146个对话，以及16个领先嵌入模型的评估结果。

The Conversation Data Retrieval (CDR) benchmark provides a systematic framework for evaluating retrieval models on conversational datasets. Unlike traditional document retrieval, conversational data features multi-turn complexity, implicit signals and temporal progression that cannot be captured by conventional methods. This benchmark includes 1,583 queries and 9,146 conversations across five key analytical domains, alongside evaluation results from 16 leading embedding models.

创建时间：

2025-10-01

原始信息汇总

CDR Benchmark: 对话数据检索基准数据集概述

数据集简介

CDR Benchmark是一个用于评估对话数据检索模型的系统性框架，专门针对对话数据的多轮复杂性、隐式信号和时间进展特性而设计。

核心组成

查询数量：1,583个查询
对话数量：9,146个对话
评估范围：涵盖16个领先的嵌入模型
数据特征：
- 平均每对话消息数：5.4
- 平均每查询词元数：10.26
- 平均每对话词元数：464
- 平均每查询相关对话数：20.44

五大分析领域

情感与反馈

识别对话中的用户情感状态和反馈
产品洞察：揭示满意度模式和痛点以改进产品

意图与目的

识别用户意图和目标
产品洞察：评估预期与实际AI系统使用之间的一致性

对话动态

分析对话流程、轮次结构和解决模式
产品洞察：识别对话瓶颈并提高对话完成率

信任、安全与伦理

探索对话中的信任建立和伦理问题
产品洞察：识别系统可靠性问题和潜在安全风险

语言风格与表达

分析语言模式和理解挑战
产品洞察：帮助根据用户理解水平调整系统语言

查询任务分布

意图与目的：36.1%
情感与反馈：20.1%
语言风格与表达：15.9%
信任、安全与伦理：14.6%
对话动态：13.4%

性能表现

顶级模型NDCG@10得分：0.5036
模型在情感与反馈、意图与目的类别表现强劲
在对话动态任务中表现显著不足，最佳模型得分低于0.17 NDCG@10

数据文件结构

cdr_benchmark_data/test_dataset/data/test ├── corpus.json ├── queries.json └── relevant_docs.json

引用信息

bibtex @inproceedings{cdr-benchmark-2025, title={Finding Diamonds in Conversation Haystacks: A Benchmark for Conversational Data Retrieval}, author={Lee, Yohan and Song, Yongwoo and Kim, Sangyeop}, booktitle={Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing: Industry Track}, year={2025} }

搜集汇总

数据集介绍

构建方式

在对话数据检索领域，CDR Benchmark的构建采用了系统化框架，涵盖五个核心分析维度：情感反馈、意图目的、对话动态、信任安全及语言风格。该数据集整合了9,146段多轮对话与1,583条查询，通过人工标注与领域分类，确保每段对话均映射至特定分析任务。数据来源于多个开源对话语料，经过去标识化与质量过滤，最终形成包含20.44个相关对话的平均查询关联结构，为评估模型在多轮对话中的语义捕捉能力奠定基础。

特点

CDR Benchmark的显著特征在于其多维度的分析架构，覆盖对话中隐含的情感信号、动态演进逻辑及伦理考量等复杂场景。数据集包含平均5.4轮次的对话序列与464个标记的文本长度，呈现了真实对话的稀疏性与连续性。尤为突出的是，当前主流嵌入模型在对话动态任务中表现薄弱，NDCG@10指标低于0.17，揭示了传统检索技术对时序性与隐含意图的解析局限，为领域研究提供了关键挑战视角。

使用方法

使用本数据集时，需通过环境配置加载测试集文件，包括语料库、查询及相关文档的JSON结构。实施阶段首先生成嵌入向量，通过指定模型名称与批处理规模运行嵌入生成脚本；随后调用推理模块评估模型性能，支持多模型并行测试。用户可通过标准化流程获取各任务类别的NDCG@10等指标，分析模型在情感反馈与对话动态等维度的差异，从而优化对话检索系统的设计。

背景与挑战

背景概述

对话数据检索基准（CDR Benchmark）由Yohan Lee、Yongwoo Song和Sangyeop Kim等研究人员于2025年提出，作为EMNLP行业轨道论文的核心贡献。该数据集聚焦于解决多轮对话场景下的信息检索难题，旨在弥补传统文档检索方法在处理对话数据时对隐含信号、时序演进和交互复杂性的捕捉不足。通过整合9,146段对话和1,583条查询，覆盖情感反馈、意图识别、对话动态、伦理安全及语言风格五大分析维度，该基准为评估嵌入模型在真实对话环境中的效能提供了系统化框架，显著推动了对话式人工智能在用户体验优化与产品洞察挖掘领域的发展。

当前挑战

对话数据检索领域面临的核心挑战在于多轮对话中隐含语义的精确提取与动态上下文的连贯建模，现有模型在对话动态任务上表现薄弱，最优模型的NDCG@10指标仅达0.17。数据构建过程中需克服对话数据的稀疏性、标注一致性以及跨领域泛化等难题，例如平衡不同分析维度的查询分布、处理长对话中的信息冗余，以及确保伦理安全类敏感内容的可靠标注。这些挑战共同制约着对话检索系统在真实应用场景中的准确性与鲁棒性。

常用场景

经典使用场景

在对话系统研究领域，CDR Benchmark作为首个专门针对多轮对话检索的评估框架，其经典应用场景聚焦于评测嵌入模型在复杂对话数据中的表现。该数据集通过1,583个查询和9,146段真实对话，系统覆盖情感反馈、意图识别等五个分析维度，为研究者提供了标准化测试环境。特别是在对话动态性分析任务中，模型需要理解话题转换与对话流程的隐含逻辑，这已成为检验检索系统深层次理解能力的试金石。

实际应用

在实际应用层面，该数据集已广泛应用于智能客服系统的优化迭代。企业可依据基准测试结果，精准定位对话流程中的瓶颈环节，例如通过情感分析维度改善用户满意度，或借助意图识别模块提升任务完成率。在内容安全领域，该数据集支撑的检索系统能主动识别潜在伦理风险，为在线教育、医疗咨询等高风险场景提供可靠保障，显著降低人工审核成本。

衍生相关工作

基于该数据集衍生的经典研究呈现多元化发展态势。在模型架构方面，催生了专门处理对话时序特征的动态嵌入方法；在评估体系层面，启发了融合多粒度指标的混合评估框架。部分团队受其启发开发了面向垂直领域的对话检索系统，如金融领域的合规性检查工具。这些衍生工作共同推动了跨模态对话理解、增量式学习等前沿方向的探索，形成良性发展的学术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集