LMExamQA
收藏OpenDataLab2023-06-01 更新2025-02-08 收录
下载链接:
https://opendatalab.com/OpenDataLab/LMExamQA
下载链接
链接失效反馈资源简介:
LMExamQA数据集包含10,090个英语测试实例,根据问题的复杂性,这些实例被分为知识回忆、理解和分析三类。该数据集涵盖了25个不同的领域。此外,该数据集引入了一种创新框架,将语言模型视为知识渊博的考官,它们根据自身理解生成问题,并在没有外部参考的情况下评估回答。
提供机构:
清华大学等
创建时间:
2023-06-01
搜集汇总
数据集介绍

背景与挑战
背景概述
LMExamQA是一个用于评估基础模型在开放式问答任务上性能的数据集,它提出了'Language-Model-as-an-Examiner'框架,使用语言模型作为考官来生成问题和评估回答,支持无参考评估和持续更新。该数据集的特点包括多领域问题生成、后续问题深入评估、结合评分与排名的可靠评估方法,以及去中心化的同行审查以减少偏见,旨在提供全面且公平的模型能力测试。
以上内容由遇见数据集搜集并总结生成



