five

QualBench

收藏
arXiv2025-05-08 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2505.05225v1
下载链接
链接失效反馈
官方服务:
资源简介:
QualBench是一个专注于垂直领域评估的多领域中文问答数据集,它包含了来自六个垂直领域的超过17,000个问题,数据选择基于24个中国资格认证,以紧密贴合国家政策和行业标准。该数据集通过专业资格认证考试进行评估,旨在为垂直领域提供全面的知识评估。通过实验,发现Qwen2.5模型在评估中优于GPT-4o,表明中文LLMs在满足资格认证要求方面的优势。此外,该数据集揭示了模型在垂直领域覆盖方面的当前差距,并为未来研究提出了多领域RAG知识增强和垂直领域LLM训练的联邦学习机会。

QualBench is a multi-domain Chinese question answering dataset focused on vertical domain evaluation. It contains over 17,000 questions sourced from six vertical domains, with data selection based on 24 Chinese qualification certifications to closely align with national policies and industry standards. This dataset is evaluated via professional qualification certification examinations, aiming to provide comprehensive knowledge assessment for vertical domains. Experiments reveal that the Qwen2.5 model outperforms GPT-4o in this evaluation, demonstrating the advantages of Chinese LLMs in meeting qualification certification requirements. Furthermore, this dataset unveils current gaps in model coverage of vertical domains, and proposes federated learning opportunities for future research, including multi-domain RAG knowledge enhancement and vertical domain LLM training.
提供机构:
香港理工大学,微众银行有限公司AI集团
创建时间:
2025-05-08
搜集汇总
数据集介绍
main_image_url
构建方式
QualBench数据集的构建基于24项中国专业资格考试,涵盖六个垂直领域,包括生产安全、消防安全、土木工程、经济金融、石油天然气和银行保险。通过光学字符识别技术从PDF文档中提取问题和答案,初始收集了31,841个问答对。经过严格的数据预处理,排除了依赖非文本信息的问题,并通过相似性匹配和人工筛选去除重复问题。最终数据集包含17,298个问题,包括单选择题、多选题和判断题,每个问题均经过领域专家的验证以确保其相关性和完整性。
特点
QualBench数据集以其高度本地化和多领域覆盖为显著特点。所有问题均源自中国本土的专业资格考试,确保了评估内容与中国国情和政策的高度契合。数据集涵盖六个垂直领域,特别强调了生产安全和消防安全等传统评估中被忽视的领域。此外,数据集包含多种题型,如单选择题、多选题和判断题,能够全面评估语言模型在不同领域的知识掌握和推理能力。数据集的本地化特性使得中国本土语言模型在评估中展现出显著优势,凸显了文化背景知识在专业领域评估中的重要性。
使用方法
QualBench数据集主要用于评估大型语言模型在中国专业领域的知识掌握程度。使用时,研究人员可以通过单次推理设置对模型进行评估,要求模型以中文领域专家的身份回答问题并提供解释。评估指标包括准确率和F1分数,同时可通过专家评估分析模型生成的解释质量。数据集支持对不同类型问题的单独评估,如单选择题、多选题和判断题,从而全面了解模型在不同题型上的表现。此外,数据集还可用于研究模型在多领域知识融合和本地化知识理解方面的能力,为开发面向中国专业领域的语言模型提供重要参考。
背景与挑战
背景概述
QualBench是由香港理工大学和微众银行AI团队于2025年推出的首个面向中文大语言模型的多领域专业资格评估基准。该数据集基于中国24项职业资格考试构建,涵盖安全生产、建筑工程、经济金融等六大垂直领域,包含超过17,000道标准化试题。作为首个系统评估中文LLMs本土化专业知识的基准,QualBench填补了现有评测体系在垂直领域覆盖度和中国工作场景适配性方面的空白,为衡量模型在专业场景中的应用可靠性提供了重要依据。其创新性地采用职业资格考试作为评估框架,确保了评测标准与国家级政策和工作规范的高度一致。
当前挑战
QualBench面临的核心挑战体现在两个维度:在领域问题层面,现有评测体系难以准确评估模型对本土化专业知识的掌握程度,特别是在法律规范、政策体系等具有中国特色的垂直领域;在构建过程层面,数据采集需平衡多领域覆盖与专业深度,处理OCR提取的试题存在格式标准化难题,且需克服领域专家标注成本高昂的困难。此外,数据集的领域不平衡特性(如安全生产类题目占比过高)可能影响模型能力的全面评估,而仅包含选择题的题型设置也限制了对开放式专业问题解决能力的考察。
常用场景
经典使用场景
QualBench数据集在评估中文大语言模型(LLMs)的垂直领域知识方面具有经典应用场景。该数据集基于中国24项专业资格考试构建,涵盖安全生产、消防安全、建筑工程等六大领域,超过17,000道题目。其核心价值在于通过标准化考试题目,系统化评估模型在特定领域的知识掌握程度,尤其关注模型对中国本土政策法规、行业标准的理解能力。例如在银行业领域,模型需准确回答关于《商业银行法》或人民币发行机制的专业问题,这种评估方式直接反映了模型在真实工作场景中的适用性。
实际应用
在实际应用层面,QualBench为金融、建筑等高合规要求行业提供了可靠的模型筛选工具。保险公司可利用其银行保险类题目评估客服AI的合规应答能力;建筑企业能通过安全生产试题检验安全督导系统的专业知识储备。该数据集特别适用于政府监管场景,如网信办可依据模型在《危险化学品管理条例》相关题目的表现,审批特定工业领域的AI部署申请。实验显示,在消防安全领域的7856次测试中,专业模型比通用模型错误率降低32%,印证了其在风险敏感场景的应用价值。
衍生相关工作
该数据集已催生多个重要研究方向。在方法层面,引出了基于联邦学习的垂直领域LLM训练框架(如Fatellm),解决数据隐私与知识覆盖的矛盾;在评估体系方面,启发了LexEval等专业法律评估基准的构建。其多领域特性促进了跨领域检索增强生成(RAG)技术的发展,如DomainRAG项目利用QualBench验证了跨域知识检索的有效性。值得注意的是,数据集揭示的模型协作失效现象(多数投票机制效果反降6.7%)直接推动了《AnnoLLM》等群体智能优化算法的研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作