LMExamQA
收藏OpenDataLab2023-06-01 更新2025-02-08 收录
下载链接:
https://opendatalab.com/OpenDataLab/LMExamQA
下载链接
链接失效反馈官方服务:
资源简介:
LMExamQA数据集包含10,090个英语测试实例,根据问题的复杂性,这些实例被分为知识回忆、理解和分析三类。该数据集涵盖了25个不同的领域。此外,该数据集引入了一种创新框架,将语言模型视为知识渊博的考官,它们根据自身理解生成问题,并在没有外部参考的情况下评估回答。
The LMExamQA dataset comprises 10,090 English test instances, which are classified into three categories based on question complexity: knowledge recall, comprehension, and analysis. This dataset spans 25 distinct domains. Furthermore, the dataset introduces an innovative framework that treats large language models as knowledgeable examiners, which generate questions based on their own understanding and evaluate responses without external references.
提供机构:
清华大学等
创建时间:
2023-06-01
搜集汇总
数据集介绍

背景与挑战
背景概述
LMExamQA是一个用于评估基础模型在开放式问答任务上性能的数据集,它提出了'Language-Model-as-an-Examiner'框架,使用语言模型作为考官来生成问题和评估回答,支持无参考评估和持续更新。该数据集的特点包括多领域问题生成、后续问题深入评估、结合评分与排名的可靠评估方法,以及去中心化的同行审查以减少偏见,旨在提供全面且公平的模型能力测试。
以上内容由遇见数据集搜集并总结生成



