推理能力测试数据集

库帕思2025-12-19 更新2025-12-20 收录

下载链接：

https://www.kupasai.com/corpus/detail?id=671&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

DetectBench是一个用于测试大语言模型推理能力的公开数据集，包含3928个样本，涵盖不同难度级别。每个样本平均涉及4.55条证据和7.62次推理跳跃，重点评估模型在隐式证据检测与多跳推理方面的能力。该数据集适用于法律分析、医学诊断、知识图谱补全等需隐式关联信息的复杂任务，可有效评估并提升模型在长文本理解和多步推理中的表现，尤其支持RAG系统的优化与验证。

提供机构：

库帕思

创建时间：

2025-12-18