LLMEVAL-2|知识评估数据集|语言模型数据集

github2023-07-01 更新2025-02-07 收录

知识评估

语言模型

下载链接：

https://github.com/llmeval/llmeval-2

下载链接

链接失效反馈

资源简介：

LLMEVAL-2数据集包含480个中文问题，用于评估不同领域的知识。这些问题来源于涵盖12个领域的外部数据库，包括选择题和开放式问题两种形式。评估通过人工和自动化评估方法相结合的方式进行。

The LLMEVAL-2 dataset contains 480 Chinese questions designed to evaluate knowledge across various domains. These questions are sourced from external databases covering 12 fields and are presented in both multiple-choice and open-ended formats. The assessment is conducted through a combination of manual and automated evaluation methods.

提供机构：

复旦大学等

创建时间：

2023-07-01

原始信息汇总

LLMEVAL-2 中文大语言模型评测第二期

项目简介

LLMEVAL-2是专业领域评测，重点考察不同专业本科生和研究生在日常学习和生活中希望借助大模型得到帮助的任务。
评测基于LLMEVAL-1的经验，改进题目设计以更好地反映模型的知识覆盖率。

数据集

学科范围：12个学科领域。
题目类型：
- 客观题：每个学科25-30道，题型为单项选择题与填空题。
- 主观题：每个学科10-15道，题型为问答题。
总题量：合计480题（12学科×40题）。
示例：
- 客观题示例：工业制取氯气的原理方程式。
- 主观题示例：如何学好有机化学的建议。

评分标准

题目类型	评价维度	分值	评价标准描述
客观题	正确性	3分	回答内容是否正确
	解释正确性	2分	解释是否生成错误内容
主观题	准确性	5分	回答内容是否有错
	信息量	3分	回答信息是否充足
	流畅性	3分	回答格式语法是否正确
	逻辑性	3分	回答逻辑是否严谨

排行榜

评测模型：20个大语言模型。
排名依据：综合客观题和主观题得分。
总分计算公式： $$ 总分=frac 1 n sum_{i=1}^n frac{score_{ai}}{score_{fi}} imes 100 $$
排名前五模型：
1. GPT4
2. GPT3.5
3. 讯飞星火
4. Baichuan-13B-Chat
5. minimax-abab5

完整报告

https://github.com/llmeval/llmeval-2/blob/master/LLMEVAL-2.pdf

引用

bibtex @misc{LLMEval2, author = {Ming Zhang and Yue Zhang and Shichun Liu and Haipeng Yuan and Junzhe Wang and Yurui Dong and Jingyi Deng and Tao Gui and Qi Zhang and Xuanjing Huang}, title = {{LLMEval-2}}, year = {2023}, month = {July}, url = {https://github.com/llmeval/llmeval-2}, }

联系方式

评测参与：http://llmeval.com/
机构评测：需认证并申请评测权限。
Email：mingzhang23@m.fudan.edu.cn
Wechat：zanyingluan

AI搜集汇总

数据集介绍

构建方式

LLMEVAL-2数据集的构建基于12个不同学科领域的知识测试集，每个学科领域均由专业出题人根据外部数据库设计题目。题目类型包括单项选择题和问答题，每个学科设计了约25-30道客观题和10-15道主观题，总计480道题目。这种构建方式确保了数据集的广泛覆盖性和专业性，能够有效评估大语言模型在不同学科领域的知识掌握情况。

特点

LLMEVAL-2数据集的特点在于其专业性和多样性。数据集涵盖了12个学科领域，每个领域的题目均由专业人士设计，确保了题目的准确性和深度。此外，数据集不仅包含客观题，还包含主观题，能够全面评估模型的知识覆盖、逻辑推理和信息表达能力。这种多维度的评估方式使得数据集在评测大语言模型时具有较高的参考价值。

使用方法

使用LLMEVAL-2数据集时，用户可以通过GitHub获取数据集并按照提供的评分标准进行模型评估。数据集中的客观题和主观题分别对应不同的评分维度，如正确性、解释正确性、准确性、信息量、流畅性和逻辑性等。用户可以根据这些评分标准对模型的表现进行量化评估，并通过排行榜对比不同模型的性能。此外，用户还可以参考完整的评测报告，进一步了解模型的优缺点。

背景与挑战

背景概述

LLMEVAL-2是中文大语言模型评测的第二期项目，由复旦大学等机构的研究团队于2023年推出。该项目旨在通过专业领域的评测，深入评估大语言模型在多个学科中的表现。与第一期相比，LLMEVAL-2更加注重用户日常使用场景，特别是本科生和研究生在学习与生活中可能遇到的任务。数据集涵盖了12个学科，包含480道题目，题型包括客观题和主观题，旨在全面测试模型的知识覆盖率和问题解决能力。该评测不仅为学术界提供了重要的基准数据，也为大语言模型的优化与改进指明了方向。

当前挑战

LLMEVAL-2在构建过程中面临多重挑战。首先，如何设计既符合专业领域知识又贴近用户实际需求的题目是一个关键问题。题目需要兼顾学科深度与用户理解度，确保评测结果具有代表性。其次，主观题的评分标准制定复杂，需平衡准确性、信息量、流畅性和逻辑性等多个维度，这对评测的客观性和一致性提出了较高要求。此外，数据集的构建依赖于外部数据库和专家知识，如何确保数据的权威性与时效性也是一大挑战。最后，评测结果的可解释性与模型表现的差异性分析仍需进一步探索，以推动大语言模型在实际应用中的优化与落地。

常用场景

经典使用场景

LLMEVAL-2数据集在评估大语言模型（LLM）的专业领域表现方面具有重要应用。该数据集通过设计涵盖12个学科的480道题目，包括客观题和主观题，旨在测试模型在特定学科领域的知识覆盖率和问题解决能力。这种设计使得LLMEVAL-2成为评估模型在复杂学术任务中表现的首选工具。

衍生相关工作

LLMEVAL-2数据集的推出催生了一系列相关研究工作。许多研究者基于该数据集开发了新的评估方法和优化策略，进一步提升了模型在专业领域的能力。此外，该数据集还促进了跨学科研究，推动了自然语言处理技术与各学科知识的深度融合，为未来的学术研究和应用开发奠定了坚实基础。

数据集最近研究

最新研究方向

在自然语言处理领域，LLMEVAL-2数据集的推出标志着大语言模型评测进入了一个更为专业化的阶段。该数据集通过构建12个学科的领域知识测试集，重点考察了大语言模型在专业领域的知识覆盖率和应用能力。近期研究主要集中在如何通过多维度评分标准（如正确性、解释正确性、准确性、信息量、流畅性和逻辑性）来全面评估模型的性能。此外，随着GPT-4等先进模型的引入，研究者们开始探索如何进一步提升模型在复杂任务中的表现，特别是在主观题的回答上，如何生成更具逻辑性和信息量的内容成为了研究热点。LLMEVAL-2不仅为模型开发者提供了详实的评测数据，也为学术界和工业界提供了宝贵的参考，推动了自然语言处理技术的进一步发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

Apple Stock Price Data

Historical stock price data for AAPL (apple)

kaggle 收录

全国 1∶200 000 数字地质图（公开版）空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

VoxBox

VoxBox是一个大规模语音语料库，由多样化的开源数据集构建而成，用于训练文本到语音（TTS）系统。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。