five

opencompass/VerifierBench

收藏
Hugging Face2025-08-26 更新2025-08-09 收录
下载链接:
https://hf-mirror.com/datasets/opencompass/VerifierBench
下载链接
链接失效反馈
官方服务:
资源简介:
VerifierBench是一个用于评估大型语言模型验证能力的综合基准数据集,涵盖了数学、知识、科学等多个领域,能够处理多种答案类型,并识别异常或无效的响应。数据集由人类专家标记和检查的多个数据源的问答对组成。

VerifierBench is a comprehensive benchmark for evaluating the verification capabilities of Large Language Models (LLMs), covering multiple domains such as math, knowledge, and science, capable of handling various answer types and identifying abnormal or invalid responses. The dataset consists of question-answer pairs from multiple sources, labeled and checked by human experts.
提供机构:
opencompass
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作