five

ArcMMLU

收藏
arXiv2023-12-01 更新2024-06-21 收录
下载链接:
https://github.com/stzhang-patrick/ArcMMLU
下载链接
链接失效反馈
官方服务:
资源简介:
ArcMMLU是一个专为中文图书馆与信息科学领域设计的大型语言模型评估基准。该数据集由武汉大学信息管理学院创建,包含6210个高质量的单选题,覆盖档案学、数据科学、图书馆学和信息科学四个主要子领域。数据集的构建过程包括从实际的研究生入学考试、专业考试、课程测验和学术竞赛中收集原始数据,通过光学字符识别(OCR)技术提取文本内容,并进行人工检查和质量过滤。ArcMMLU旨在通过这些精心设计的题目,全面评估和提升大型语言模型在特定领域的应用能力,特别是在复杂信息检索、数据组织和档案图书馆环境中的用户交互等方面。

ArcMMLU is a large language model (LLM) evaluation benchmark specifically designed for the Chinese library and information science domain. This dataset, created by the School of Information Management, Wuhan University, contains 6,210 high-quality multiple-choice questions covering four core subfields: archival science, data science, library science, and information science. The dataset construction process involves collecting raw data from actual graduate entrance examinations, professional exams, course quizzes, and academic competitions, extracting text content via Optical Character Recognition (OCR) technology, and conducting manual inspection and quality filtering. ArcMMLU aims to comprehensively evaluate and enhance the application capabilities of LLMs in targeted domains through these meticulously designed questions, particularly in areas such as complex information retrieval, data organization, and user interaction in archival and library environments.
提供机构:
武汉大学信息管理学院
创建时间:
2023-12-01
搜集汇总
数据集介绍
main_image_url
构建方式
ArcMMLU数据集的构建过程严格遵循了高质量标准,通过收集超过6,000道单选题,涵盖档案学、数据科学、图书馆学和信息科学四个关键子领域。这些题目来源于研究生入学考试、专业考试、课程测验和学术竞赛,确保了题目的真实性和专业性。数据集的构建还包括了细致的预处理、光学字符识别(OCR)、文本提取、冗余元素去除、无关领域过滤和去重等步骤,以确保数据的高质量和一致性。
特点
ArcMMLU数据集的显著特点在于其针对中国图书馆与信息科学(LIS)领域的专门设计,涵盖了档案学、数据科学、图书馆学和信息科学四个子领域。数据集包含了超过6,000道高质量的单选题,能够全面反映LIS领域的多样性和复杂性。此外,数据集还经过了严格的质量控制和交叉检查,确保了题目的准确性和可靠性。
使用方法
ArcMMLU数据集主要用于评估大型语言模型(LLMs)在图书馆与信息科学领域的知识和推理能力。使用者可以通过提供单选题的形式,测试模型在不同子领域的表现,并根据模型的回答准确率来评估其性能。数据集支持零样本和少样本学习设置,允许研究者在不同情境下测试模型的泛化能力和适应性。此外,数据集还提供了详细的错误分析和挑战性问题子集,帮助研究者深入理解模型的优缺点,并指导未来的模型改进。
背景与挑战
背景概述
随着大型语言模型(LLMs)能力的迅速发展,开发严格的领域特定评估基准以准确评估其能力变得至关重要。在此背景下,ArcMMLU数据集应运而生,由武汉大学信息管理学院、计算机科学学院以及清华大学法学院的研究团队于2023年创建。该数据集专注于中文图书馆与信息科学(LIS)领域,旨在测量LLMs在档案学、数据科学、图书馆学和信息科学四个关键子领域的知识和推理能力。通过收集超过6,000个高质量问题,ArcMMLU为LLMs的评估提供了坚实的基础,填补了LIS领域在LLM评估中的空白,推动了该领域LLMs的进一步发展。
当前挑战
ArcMMLU数据集在构建过程中面临多项挑战。首先,如何确保从不同来源收集的问题具有高质量和代表性,是一个复杂的过程,涉及数据清洗、过滤和人工检查。其次,尽管主流LLMs在ArcMMLU上的平均准确率超过50%,但仍存在显著的性能差距,表明在LIS领域的特定知识和推理能力上仍有提升空间。此外,数据泄露问题在模型训练中也是一个潜在风险,可能导致模型在少样本学习设置下表现不佳。最后,如何有效整合更多LIS相关数据以增强模型的领域知识,是未来研究的重要方向。
常用场景
经典使用场景
ArcMMLU数据集的经典使用场景在于评估大型语言模型(LLMs)在图书馆与信息科学(LIS)领域的知识和推理能力。通过涵盖档案学、数据科学、图书馆学和信息科学四个关键子领域的6000多个高质量问题,ArcMMLU为LLMs在LIS领域的性能提供了全面的评估框架。
解决学术问题
ArcMMLU数据集解决了在LIS领域缺乏专门评估工具的问题,填补了LLMs在该领域评估的空白。它不仅提供了对现有模型性能的深入分析,还揭示了模型在处理复杂信息检索、数据组织和用户交互等任务时的局限性,为未来LIS领域专用模型的开发提供了宝贵的指导。
衍生相关工作
基于ArcMMLU数据集,研究者们可以进一步开发和优化针对LIS领域的专用语言模型。例如,可以利用ArcMMLU的评估结果,设计更有效的训练数据集,或者开发新的模型架构以提高在LIS任务中的表现。此外,ArcMMLU也为其他领域特定语言模型的评估和开发提供了参考和借鉴。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作