five

推理能力测试数据集

收藏
库帕思2025-12-19 更新2025-12-20 收录
下载链接:
https://www.kupasai.com/corpus/detail?id=671&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
DetectBench是一个用于测试大语言模型推理能力的公开数据集,包含3928个样本,涵盖不同难度级别。每个样本平均涉及4.55条证据和7.62次推理跳跃,重点评估模型在隐式证据检测与多跳推理方面的能力。该数据集适用于法律分析、医学诊断、知识图谱补全等需隐式关联信息的复杂任务,可有效评估并提升模型在长文本理解和多步推理中的表现,尤其支持RAG系统的优化与验证。
提供机构:
库帕思
创建时间:
2025-12-18
二维码
社区交流群
二维码
科研交流群
商业服务