five

LLMEVAL-3

收藏
github2023-09-01 更新2025-02-07 收录
下载链接:
https://github.com/llmeval/llmeval-3
下载链接
链接失效反馈
资源简介:
LLMEVAL-3数据集包含大约20万道以自由回答形式设计的问题,这些问题被归类为13个主要学术领域,并涵盖50多个具体学科,系统性地深入探究专业知识的深度。这些问题主要来源于本科作业、考试以及研究生入学评估。数据集的创建者精心从互联网之外的渠道获取评估内容。在评估过程中,模型会被随机分配1000道问题的子集,并通过GPT-4评分方法对其回答进行评估。

The LLMEVAL-3 dataset encompasses approximately 200,000 questions designed in a free-response format, which are categorized into 13 primary academic disciplines and cover over 50 specific subjects, systematically delving into the depth of professional knowledge. These questions are primarily sourced from undergraduate assignments, exams, and postgraduate admission assessments. The creators of the dataset meticulously sourced evaluation content from channels outside the internet. During the evaluation process, models are randomly assigned subsets of 1000 questions and their answers are assessed using the GPT-4 rating method.
提供机构:
复旦大学等
创建时间:
2023-09-01
原始信息汇总

LLMEval-3 数据集概述

数据集基本信息

  • 名称:LLMEval-3
  • 主题:专业知识能力评测
  • 学科覆盖:哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等13个学科门类、50余个二级学科
  • 题目数量:约20W道标准生成式问答题目(计划扩充至100W)
  • 题目来源:大学本科课后作业、大学本科期中期末考试、研究生入学考试等非互联网公开渠道
  • 数据格式:原始为PDF和Word文件,经过OCR识别与数据清洗后格式化处理

题目特点

  • 题型:生成式知识问答,包括简答、计算、判断、辨析、写作等多种题型
  • 评测形式:全流程自动化,提供标准接口

评测流程

  • 题目抽样:每个参与评测的系统需完成从总题库中随机抽样的1000题
  • 防作弊机制
    • 针对同一机构的模型确保每次评测题目不重复
    • 在线评测,题目发送串行进行
  • 评测模型:GPT4 Turbo
  • 评分标准
    • 每道题得分范围:0-3分
    • 评分聚焦于回答的核心正确性和解释正确性
    • 评分prompt标准化

评测指标

  • 绝对分数:模型在1000道题目的单题得分之和并映射到[0, 100]区间
  • 相对分数
    • 相对于GPT-3.5-turbo的分位并映射到[0, 100]区间
    • 相对于GPT-4的分位并映射到[0, 100]区间

评测结果(截至2024年3月10日22:00)

综合排行榜

模型名称 相对分数-GPT4 Turbo 相对分数-GPT3.5 绝对分数
GPT4 Turbo(gpt-4-1106-preview) 100 141.81 73.6
gpt-4-0125-preview 97.28 137.96 71.6
Baidu4.0 95.56 135.52 70.33
Yi-34B-Chat 89.27 126.59 65.70
Baidu3.5 87.95 124.73 64.73

各学科分数(部分示例)

模型名称 工学 经济学 教育学 法学 文学
GPT4 Turbo(gpt-4-1106-preview) 6.97 8.17 8.33 7.8 6.0
gpt-4-10125-preview 6.9 7.4 8.03 7.3 6.0
Baidu4.0 7.27 7.23 7.67 7.43 5.63

系统性分析

  • 评测稳定性:以GPT-4作为基准模型的相对分数稳定性优于GPT-3.5-turbo
  • 模型表现:大部分模型相对GPT-4分数的二次相对偏差小于5%
  • 中文模型进展:国内开源模型在最近3个月有大幅度提升

联系方式

  • 官网:http://llmeval.com/
  • 邮箱:mingzhang23@m.fudan.edu.cn
  • 微信:zanyingluan
搜集汇总
数据集介绍
main_image_url
构建方式
LLMEVAL-3数据集的构建基于教育部划定的13个学科门类,涵盖50余个二级学科,题目来源主要包括大学本科课后作业、期中期末考试以及研究生入学考试等非互联网公开渠道。数据格式为PDF和Word文件,经过OCR识别与数据清洗后,题目被统一处理为生成式知识问答形式,确保评测的多样性与真实性。为防止预训练数据泄露,题目来源尽可能避免公开渠道,并通过自动化接口实现全流程评测。
特点
LLMEVAL-3数据集的特点在于其广泛的学科覆盖与多样化的题型设计。所有题目均以生成式知识问答形式呈现,涵盖简答、计算、判断、辨析、写作等多种题型,能够更全面地评估模型的语言能力与专业知识水平。此外,评测过程中采用随机抽样机制,确保每次评测题目不重复,有效防止作弊行为。评测结果通过相对分数与绝对分数双重指标进行衡量,进一步提升了评测的客观性与可靠性。
使用方法
使用LLMEVAL-3数据集时,评测系统需从总题库中随机抽取1000道题目进行在线评测。评测过程采用串行方式,即下一题的发送基于上一题的回答情况,避免恶意爬取行为。每道题目的得分范围为0-3分,评分标准聚焦于回答的核心正确性与解释正确性。评测结果通过相对分数与绝对分数进行量化,相对分数以GPT-4和GPT-3.5-turbo为基准,确保评测结果的稳定性与可比性。用户可通过在线平台参与评测,并查看详细的排行榜与学科分数分布。
背景与挑战
背景概述
LLMEVAL-3数据集由复旦大学等机构于2023年创建,旨在评估大型语言模型在多个学科领域的专业知识能力。该数据集涵盖了教育部划定的13个学科门类,包含约20万道生成式问答题目,题目来源主要为大学本科和研究生阶段的考试与作业。通过采用生成式问答形式,LLMEVAL-3能够更全面地评估模型的语言生成能力和知识理解深度,为学术界和工业界提供了重要的基准测试工具。该数据集的出现推动了语言模型在专业领域应用的研究,尤其是在多学科知识问答任务中的表现评估。
当前挑战
LLMEVAL-3数据集面临的挑战主要体现在两个方面。首先,生成式问答形式对模型的回答质量提出了更高要求,尤其是在多学科交叉领域的复杂问题中,模型需要具备更强的推理能力和知识整合能力。其次,数据集的构建过程中,题目来源的非公开性和数据清洗的复杂性增加了数据收集与处理的难度。此外,评测过程中如何防止模型通过预训练数据作弊,以及如何确保评测结果的公平性与稳定性,也是该数据集需要解决的关键问题。这些挑战促使研究者在模型训练、评测方法以及数据质量控制方面进行更深入的探索。
常用场景
经典使用场景
LLMEVAL-3数据集广泛应用于大语言模型的专业知识能力评测,尤其是在哲学、经济学、法学等13个学科门类的生成式问答任务中。通过涵盖大学本科课后作业、期中期末考试及研究生入学考试等非互联网公开渠道的题目,该数据集能够有效评估模型在复杂知识场景下的表现。其生成式问答形式不仅避免了选择题的局限性,还通过多种题型(如简答、计算、辨析等)全面考察模型的语言生成与逻辑推理能力。
衍生相关工作
LLMEVAL-3的推出催生了一系列相关研究工作,包括基于其评测结果的大语言模型优化算法、跨学科知识融合技术以及生成式问答系统的改进方法。例如,百度、零一万物等机构基于该数据集的评测结果,开发了性能更优的模型版本。此外,LLMEVAL-3还激发了学术界对评测基准设计的研究兴趣,推动了更公平、更科学的模型评测方法的发展。
数据集最近研究
最新研究方向
LLMEVAL-3数据集作为专业知识能力评测的重要工具,近年来在自然语言处理领域引起了广泛关注。该数据集涵盖了13个学科门类,通过生成式知识问答形式,全面评估大模型在复杂知识场景下的表现。当前研究热点集中在如何进一步提升模型在生成式问答中的准确性和解释能力,尤其是在多学科交叉领域的表现。此外,随着GPT-4 Turbo等新一代模型的引入,研究者们正探索如何通过相对分数和绝对分数的结合,更精确地衡量模型在不同学科中的能力差异。LLMEVAL-3的评测机制也为防止数据泄露和模型作弊提供了新的思路,推动了评测基准的公平性和透明性。这些研究不仅推动了模型在专业知识领域的应用,也为未来多模态、跨学科的知识问答系统奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作