推理能力测试数据集

库帕思2025-12-19 更新2025-12-20 收录

下载链接：

https://www.kupasai.com/corpus/detail?id=383&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

DetectBench，推理能力测试数据集数据来源：公开网站数据规模：3928个样本数据特点：涵盖不同难度级别，平均每个样本涉及 4.55 条证据和 7.62 次推理跳跃。测试模型在隐式证据检测和多跳推理上的能力。应用场景：评估大语言模型在复杂推理任务中的表现，如法律分析、医学诊断、知识图谱补全等需要隐式关联的任务。适用于改进 RAG系统，提升模型对长文本和隐含信息的理解能力。

DetectBench: A Reasoning Capability Test Dataset Data Source: Publicly available websites Dataset Scale: 3,928 samples Data Characteristics: Covers samples across multiple difficulty levels, with each sample averaging 4.55 pieces of evidence and 7.62 reasoning hops. This dataset is designed to evaluate models' capabilities in implicit evidence detection and multi-hop reasoning. Application Scenarios: It is utilized to assess the performance of large language models (LLMs) in complex reasoning tasks requiring implicit association, such as legal analysis, medical diagnosis, and knowledge graph completion. It is suitable for improving Retrieval-Augmented Generation (RAG) systems and enhancing models' understanding of long texts and implicit information.

提供机构：

库帕思

创建时间：

2025-09-22