five

LLMEVAL-2

收藏
github2023-07-01 更新2025-02-07 收录
下载链接:
https://github.com/llmeval/llmeval-2
下载链接
链接失效反馈
资源简介:
LLMEVAL-2数据集包含480个中文问题,用于评估不同领域的知识。这些问题来源于涵盖12个领域的外部数据库,包括选择题和开放式问题两种形式。评估通过人工和自动化评估方法相结合的方式进行。

The LLMEVAL-2 dataset contains 480 Chinese questions designed to evaluate knowledge across various domains. These questions are sourced from external databases covering 12 fields and are presented in both multiple-choice and open-ended formats. The assessment is conducted through a combination of manual and automated evaluation methods.
提供机构:
复旦大学等
创建时间:
2023-07-01
原始信息汇总

LLMEVAL-2 中文大语言模型评测第二期

项目简介

  • LLMEVAL-2是专业领域评测,重点考察不同专业本科生和研究生在日常学习和生活中希望借助大模型得到帮助的任务。
  • 评测基于LLMEVAL-1的经验,改进题目设计以更好地反映模型的知识覆盖率。

数据集

  • 学科范围:12个学科领域。
  • 题目类型
    • 客观题:每个学科25-30道,题型为单项选择题与填空题。
    • 主观题:每个学科10-15道,题型为问答题。
  • 总题量:合计480题(12学科×40题)。
  • 示例
    • 客观题示例:工业制取氯气的原理方程式。
    • 主观题示例:如何学好有机化学的建议。

评分标准

题目类型 评价维度 分值 评价标准描述
客观题 正确性 3分 回答内容是否正确
解释正确性 2分 解释是否生成错误内容
主观题 准确性 5分 回答内容是否有错
信息量 3分 回答信息是否充足
流畅性 3分 回答格式语法是否正确
逻辑性 3分 回答逻辑是否严谨

排行榜

  • 评测模型:20个大语言模型。
  • 排名依据:综合客观题和主观题得分。
  • 总分计算公式: $$ 总分=frac 1 n sum_{i=1}^n frac{score_{ai}}{score_{fi}} imes 100 $$
  • 排名前五模型
    1. GPT4
    2. GPT3.5
    3. 讯飞星火
    4. Baichuan-13B-Chat
    5. minimax-abab5

完整报告

https://github.com/llmeval/llmeval-2/blob/master/LLMEVAL-2.pdf

引用

bibtex @misc{LLMEval2, author = {Ming Zhang and Yue Zhang and Shichun Liu and Haipeng Yuan and Junzhe Wang and Yurui Dong and Jingyi Deng and Tao Gui and Qi Zhang and Xuanjing Huang}, title = {{LLMEval-2}}, year = {2023}, month = {July}, url = {https://github.com/llmeval/llmeval-2}, }

联系方式

  • 评测参与:http://llmeval.com/
  • 机构评测:需认证并申请评测权限。
  • Email:mingzhang23@m.fudan.edu.cn
  • Wechat:zanyingluan
搜集汇总
数据集介绍
main_image_url
构建方式
LLMEVAL-2数据集的构建基于12个不同学科领域的知识测试集,每个学科领域均由专业出题人根据外部数据库设计题目。题目类型包括单项选择题和问答题,每个学科设计了约25-30道客观题和10-15道主观题,总计480道题目。这种构建方式确保了数据集的广泛覆盖性和专业性,能够有效评估大语言模型在不同学科领域的知识掌握情况。
特点
LLMEVAL-2数据集的特点在于其专业性和多样性。数据集涵盖了12个学科领域,每个领域的题目均由专业人士设计,确保了题目的准确性和深度。此外,数据集不仅包含客观题,还包含主观题,能够全面评估模型的知识覆盖、逻辑推理和信息表达能力。这种多维度的评估方式使得数据集在评测大语言模型时具有较高的参考价值。
使用方法
使用LLMEVAL-2数据集时,用户可以通过GitHub获取数据集并按照提供的评分标准进行模型评估。数据集中的客观题和主观题分别对应不同的评分维度,如正确性、解释正确性、准确性、信息量、流畅性和逻辑性等。用户可以根据这些评分标准对模型的表现进行量化评估,并通过排行榜对比不同模型的性能。此外,用户还可以参考完整的评测报告,进一步了解模型的优缺点。
背景与挑战
背景概述
LLMEVAL-2是中文大语言模型评测的第二期项目,由复旦大学等机构的研究团队于2023年推出。该项目旨在通过专业领域的评测,深入评估大语言模型在多个学科中的表现。与第一期相比,LLMEVAL-2更加注重用户日常使用场景,特别是本科生和研究生在学习与生活中可能遇到的任务。数据集涵盖了12个学科,包含480道题目,题型包括客观题和主观题,旨在全面测试模型的知识覆盖率和问题解决能力。该评测不仅为学术界提供了重要的基准数据,也为大语言模型的优化与改进指明了方向。
当前挑战
LLMEVAL-2在构建过程中面临多重挑战。首先,如何设计既符合专业领域知识又贴近用户实际需求的题目是一个关键问题。题目需要兼顾学科深度与用户理解度,确保评测结果具有代表性。其次,主观题的评分标准制定复杂,需平衡准确性、信息量、流畅性和逻辑性等多个维度,这对评测的客观性和一致性提出了较高要求。此外,数据集的构建依赖于外部数据库和专家知识,如何确保数据的权威性与时效性也是一大挑战。最后,评测结果的可解释性与模型表现的差异性分析仍需进一步探索,以推动大语言模型在实际应用中的优化与落地。
常用场景
经典使用场景
LLMEVAL-2数据集在评估大语言模型(LLM)的专业领域表现方面具有重要应用。该数据集通过设计涵盖12个学科的480道题目,包括客观题和主观题,旨在测试模型在特定学科领域的知识覆盖率和问题解决能力。这种设计使得LLMEVAL-2成为评估模型在复杂学术任务中表现的首选工具。
衍生相关工作
LLMEVAL-2数据集的推出催生了一系列相关研究工作。许多研究者基于该数据集开发了新的评估方法和优化策略,进一步提升了模型在专业领域的能力。此外,该数据集还促进了跨学科研究,推动了自然语言处理技术与各学科知识的深度融合,为未来的学术研究和应用开发奠定了坚实基础。
数据集最近研究
最新研究方向
在自然语言处理领域,LLMEVAL-2数据集的推出标志着大语言模型评测进入了一个更为专业化的阶段。该数据集通过构建12个学科的领域知识测试集,重点考察了大语言模型在专业领域的知识覆盖率和应用能力。近期研究主要集中在如何通过多维度评分标准(如正确性、解释正确性、准确性、信息量、流畅性和逻辑性)来全面评估模型的性能。此外,随着GPT-4等先进模型的引入,研究者们开始探索如何进一步提升模型在复杂任务中的表现,特别是在主观题的回答上,如何生成更具逻辑性和信息量的内容成为了研究热点。LLMEVAL-2不仅为模型开发者提供了详实的评测数据,也为学术界和工业界提供了宝贵的参考,推动了自然语言处理技术的进一步发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作