DSEBench

Name: DSEBench
Creator: 南京大学
Published: 2025-10-20 15:19:47
License: 暂无描述

arXiv2025-10-20 更新2025-10-23 收录

下载链接：

https://DSEBench

下载链接

链接失效反馈

官方服务：

资源简介：

DSEBench是一个高质量的测试集合，为可解释数据集搜索提供了高质量的、人工注释的查询相关性和目标相似性，以支持可解释数据集搜索的评估。该数据集包含了丰富的元数据和内容摘要，并提供了大量由大型语言模型生成的注释，用于训练数据。DSEBench旨在解决数据集搜索中查询相关性和目标相似性问题，并支持可解释信息检索的研究。

DSEBench is a high-quality test collection dedicated to explainable dataset search. It provides high-quality human-annotated query relevance and target similarity annotations to support the evaluation of explainable dataset search workflows. This collection encompasses rich metadata and content summaries, as well as a large number of annotations generated by Large Language Models (LLMs) for use as training data. DSEBench aims to resolve the core issues of query relevance and target similarity in dataset search, and to foster research in explainable information retrieval.

提供机构：

南京大学

创建时间：

2025-10-20

搜集汇总

数据集介绍

构建方式

DSEBench的构建基于NTCIR数据集搜索测试集，通过系统化流程整合了46,615个数据集及其元数据字段。构建过程首先对数据文件进行格式识别与内容摘要生成，针对不同格式（如表格、文本、JSON等）采用专门技术提取关键信息。测试用例由人工标注的高相关性查询-数据集对转化而成，训练用例则结合部分人工标注与大规模语言模型生成的合成数据，并通过多检索器池化策略筛选候选数据集，最终形成包含细粒度字段级标注的高质量语料库。

特点

该数据集的核心特征在于其面向可解释数据集搜索的综合性设计。它不仅提供数据集级别的查询相关性和目标相似性标注，还首次引入了字段级的解释性标注，明确标识出数据集中指示相关性或相似性的具体元数据字段。数据集覆盖了丰富的政府数据领域，包含标题、描述、标签、作者和内容摘要五类关键字段，并通过人工与语言模型协同标注的方式，平衡了标注质量与规模，为可解释性研究提供了多维度评估基础。

使用方法

DSEBench支持检索、重排序和可解释性三大任务的评估。用户可通过官方划分的训练-验证-测试集开展模型训练与性能对比，其中测试集采用五折交叉验证确保结果可靠性。评估时需综合计算查询相关性与目标相似性的乘积作为最终相关性标签，并利用字段级标注验证解释方法的有效性。数据集兼容稀疏、稠密及大语言模型等多种方法，为可解释数据集搜索提供了标准化评测框架与基线性能参考。

背景与挑战

背景概述

在开放数据时代，高效发现符合特定需求的数据集成为关键研究课题。DSEBench由南京大学软件新技术国家重点实验室团队于2025年构建，旨在解决传统数据集检索范式的局限性。该测试集创新性地融合了基于关键词的检索与基于示例的相似性匹配，首次实现了可解释性数据集搜索的系统化评估框架。其核心价值在于通过细粒度字段级标注，为数据科学领域提供了同时满足查询相关性与目标相似性双重需求的基准平台。

当前挑战

该数据集致力于解决可解释性示例数据集搜索这一复合任务的评估难题，主要面临双重挑战：在领域问题层面，需突破传统检索系统仅支持单一输入模式的局限，实现查询文本与目标数据集的多模态协同推理；在构建过程中，需克服异构数据文件格式解析、大规模标注质量控制和语义对齐验证等技术障碍，特别是针对非结构化文本与半结构化数据的统一表示学习问题。

常用场景

经典使用场景

在开放数据时代，研究人员面临从海量数据源中精准定位符合特定需求数据集的挑战。DSEBench通过构建包含查询文本和目标数据集示例的复合输入，支持数据集检索系统同时评估候选数据集与查询的相关性以及与目标数据集的相似性。该测试集特别适用于教育领域场景，例如用户搜索“美国中小学生”相关数据集时，可提供“教育与青年2010”作为目标示例，系统需返回既包含学生指标又具有特定时间特征的候选数据集。

衍生相关工作

基于DSEBench的评估框架，研究者已衍生出多类经典工作。在检索模型方面，包括对BM25、DPR等稀疏与稠密检索器的适应性改进；在重排序领域，Stella、SFR等先进模型被引入进行性能对比；可解释性研究则催生了特征消融、LIME和SHAP等后解释方法的创新应用。这些工作不仅建立了可解释数据集检索的基准性能，还为传统关键词检索和相似性发现系统提供了技术迁移路径。

数据集最近研究