five

A Comparison on Knowledge and Reasoning Intensive RAG-based Benchmarks

收藏
DataCite Commons2025-12-25 更新2026-05-04 收录
下载链接:
https://orkg.org/comparison/R1568230
下载链接
链接失效反馈
官方服务:
资源简介:
This comparison has categorized benchmarks/datasets based on their tasks include Web browsing, such as BrowseComp; singlehop QA, such as TriviaQA; multi-hop QA, such as HotpotQA; multiple-choice QA, such as MMLU-Pro; mathematics, such as MATH etc.

本次对比分析依据任务类型对基准测试集与数据集进行了分类,涵盖网页浏览任务(如BrowseComp)、单跳问答任务(如TriviaQA)、多跳问答任务(如HotpotQA)、多项选择问答任务(如MMLU-Pro)以及数学类任务(如MATH)等。
提供机构:
Open Research Knowledge Graph
创建时间:
2025-12-25
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作