LLMEVAL-3|学术评估数据集|模型性能测试数据集

github2023-09-01 更新2025-02-07 收录

学术评估

模型性能测试

下载链接：

https://github.com/llmeval/llmeval-3

下载链接

链接失效反馈

资源简介：

LLMEVAL-3数据集包含大约20万道以自由回答形式设计的问题，这些问题被归类为13个主要学术领域，并涵盖50多个具体学科，系统性地深入探究专业知识的深度。这些问题主要来源于本科作业、考试以及研究生入学评估。数据集的创建者精心从互联网之外的渠道获取评估内容。在评估过程中，模型会被随机分配1000道问题的子集，并通过GPT-4评分方法对其回答进行评估。

The LLMEVAL-3 dataset encompasses approximately 200,000 questions designed in a free-response format, which are categorized into 13 primary academic disciplines and cover over 50 specific subjects, systematically delving into the depth of professional knowledge. These questions are primarily sourced from undergraduate assignments, exams, and postgraduate admission assessments. The creators of the dataset meticulously sourced evaluation content from channels outside the internet. During the evaluation process, models are randomly assigned subsets of 1000 questions and their answers are assessed using the GPT-4 rating method.

提供机构：

复旦大学等

创建时间：

2023-09-01

原始信息汇总

LLMEval-3 数据集概述

数据集基本信息

名称：LLMEval-3
主题：专业知识能力评测
学科覆盖：哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等13个学科门类、50余个二级学科
题目数量：约20W道标准生成式问答题目（计划扩充至100W）
题目来源：大学本科课后作业、大学本科期中期末考试、研究生入学考试等非互联网公开渠道
数据格式：原始为PDF和Word文件，经过OCR识别与数据清洗后格式化处理

题目特点

题型：生成式知识问答，包括简答、计算、判断、辨析、写作等多种题型
评测形式：全流程自动化，提供标准接口

评测流程

题目抽样：每个参与评测的系统需完成从总题库中随机抽样的1000题
防作弊机制：
- 针对同一机构的模型确保每次评测题目不重复
- 在线评测，题目发送串行进行
评测模型：GPT4 Turbo
评分标准：
- 每道题得分范围：0-3分
- 评分聚焦于回答的核心正确性和解释正确性
- 评分prompt标准化

评测指标

绝对分数：模型在1000道题目的单题得分之和并映射到[0, 100]区间
相对分数：
- 相对于GPT-3.5-turbo的分位并映射到[0, 100]区间
- 相对于GPT-4的分位并映射到[0, 100]区间

评测结果（截至2024年3月10日22:00）

综合排行榜

模型名称	相对分数-GPT4 Turbo	相对分数-GPT3.5	绝对分数
GPT4 Turbo(gpt-4-1106-preview)	100	141.81	73.6
gpt-4-0125-preview	97.28	137.96	71.6
Baidu4.0	95.56	135.52	70.33
Yi-34B-Chat	89.27	126.59	65.70
Baidu3.5	87.95	124.73	64.73

各学科分数（部分示例）

模型名称	工学	经济学	教育学	法学	文学
GPT4 Turbo(gpt-4-1106-preview)	6.97	8.17	8.33	7.8	6.0
gpt-4-10125-preview	6.9	7.4	8.03	7.3	6.0
Baidu4.0	7.27	7.23	7.67	7.43	5.63

系统性分析

评测稳定性：以GPT-4作为基准模型的相对分数稳定性优于GPT-3.5-turbo
模型表现：大部分模型相对GPT-4分数的二次相对偏差小于5%
中文模型进展：国内开源模型在最近3个月有大幅度提升

联系方式

官网：http://llmeval.com/
邮箱：mingzhang23@m.fudan.edu.cn
微信：zanyingluan

AI搜集汇总

数据集介绍

构建方式

LLMEVAL-3数据集的构建基于教育部划定的13个学科门类，涵盖50余个二级学科，题目来源主要包括大学本科课后作业、期中期末考试以及研究生入学考试等非互联网公开渠道。数据格式为PDF和Word文件，经过OCR识别与数据清洗后，题目被统一处理为生成式知识问答形式，确保评测的多样性与真实性。为防止预训练数据泄露，题目来源尽可能避免公开渠道，并通过自动化接口实现全流程评测。

特点

LLMEVAL-3数据集的特点在于其广泛的学科覆盖与多样化的题型设计。所有题目均以生成式知识问答形式呈现，涵盖简答、计算、判断、辨析、写作等多种题型，能够更全面地评估模型的语言能力与专业知识水平。此外，评测过程中采用随机抽样机制，确保每次评测题目不重复，有效防止作弊行为。评测结果通过相对分数与绝对分数双重指标进行衡量，进一步提升了评测的客观性与可靠性。

使用方法

使用LLMEVAL-3数据集时，评测系统需从总题库中随机抽取1000道题目进行在线评测。评测过程采用串行方式，即下一题的发送基于上一题的回答情况，避免恶意爬取行为。每道题目的得分范围为0-3分，评分标准聚焦于回答的核心正确性与解释正确性。评测结果通过相对分数与绝对分数进行量化，相对分数以GPT-4和GPT-3.5-turbo为基准，确保评测结果的稳定性与可比性。用户可通过在线平台参与评测，并查看详细的排行榜与学科分数分布。

背景与挑战

背景概述

LLMEVAL-3数据集由复旦大学等机构于2023年创建，旨在评估大型语言模型在多个学科领域的专业知识能力。该数据集涵盖了教育部划定的13个学科门类，包含约20万道生成式问答题目，题目来源主要为大学本科和研究生阶段的考试与作业。通过采用生成式问答形式，LLMEVAL-3能够更全面地评估模型的语言生成能力和知识理解深度，为学术界和工业界提供了重要的基准测试工具。该数据集的出现推动了语言模型在专业领域应用的研究，尤其是在多学科知识问答任务中的表现评估。

当前挑战

LLMEVAL-3数据集面临的挑战主要体现在两个方面。首先，生成式问答形式对模型的回答质量提出了更高要求，尤其是在多学科交叉领域的复杂问题中，模型需要具备更强的推理能力和知识整合能力。其次，数据集的构建过程中，题目来源的非公开性和数据清洗的复杂性增加了数据收集与处理的难度。此外，评测过程中如何防止模型通过预训练数据作弊，以及如何确保评测结果的公平性与稳定性，也是该数据集需要解决的关键问题。这些挑战促使研究者在模型训练、评测方法以及数据质量控制方面进行更深入的探索。

常用场景

经典使用场景

LLMEVAL-3数据集广泛应用于大语言模型的专业知识能力评测，尤其是在哲学、经济学、法学等13个学科门类的生成式问答任务中。通过涵盖大学本科课后作业、期中期末考试及研究生入学考试等非互联网公开渠道的题目，该数据集能够有效评估模型在复杂知识场景下的表现。其生成式问答形式不仅避免了选择题的局限性，还通过多种题型（如简答、计算、辨析等）全面考察模型的语言生成与逻辑推理能力。

衍生相关工作

LLMEVAL-3的推出催生了一系列相关研究工作，包括基于其评测结果的大语言模型优化算法、跨学科知识融合技术以及生成式问答系统的改进方法。例如，百度、零一万物等机构基于该数据集的评测结果，开发了性能更优的模型版本。此外，LLMEVAL-3还激发了学术界对评测基准设计的研究兴趣，推动了更公平、更科学的模型评测方法的发展。

数据集最近研究

最新研究方向

LLMEVAL-3数据集作为专业知识能力评测的重要工具，近年来在自然语言处理领域引起了广泛关注。该数据集涵盖了13个学科门类，通过生成式知识问答形式，全面评估大模型在复杂知识场景下的表现。当前研究热点集中在如何进一步提升模型在生成式问答中的准确性和解释能力，尤其是在多学科交叉领域的表现。此外，随着GPT-4 Turbo等新一代模型的引入，研究者们正探索如何通过相对分数和绝对分数的结合，更精确地衡量模型在不同学科中的能力差异。LLMEVAL-3的评测机制也为防止数据泄露和模型作弊提供了新的思路，推动了评测基准的公平性和透明性。这些研究不仅推动了模型在专业知识领域的应用，也为未来多模态、跨学科的知识问答系统奠定了基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站，旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书，如判决书、裁定书、调解书等，涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

ICESat-2 Data

ICESat-2 Data 是由美国国家航空航天局（NASA）发布的卫星数据集，主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据，用于研究冰川、海冰、植被和地形变化。

icesat-2.gsfc.nasa.gov 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估，我们引入了一个新颖且全面的数据集，专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集，包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象，以实现强大的检测和分类。

github 收录

KAIST dataset

KAIST数据集，用于多光谱行人检测。

github 收录

专精特新“小巨人”合肥企业名单（第一批～第四批）

根据工信部的定义，专精特新“小巨人”企业是“专精特新”中小企业中的佼佼者，是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的排头兵企业。截止第四批，目前，全市“小巨人”企业总数达140户，占全国的1.6%，在全国城市及省会城市排名各进一位，位居全国城市第十四，省会城市第五。 2022 年 6 月，合肥市发布《专精特新中小企业倍增培育行动计划》，到2025年，合肥计划培育省级专精特新冠军企业和国家级专精特新“小巨人”企业300家，推动50家专精特新中小企业上市挂牌。接下来，合肥还将支持地方国有金融机构设立专精特新专项融资产品，力争每条产业链培育一批国家级专精特新“小巨人”企业。

合肥数据要素流通平台收录