GovRelBench
收藏arXiv2025-07-29 更新2025-07-31 收录
下载链接:
https://github.com/pan-xi/GovRelBench
下载链接
链接失效反馈官方服务:
资源简介:
GovRelBench是一个专为评估大型语言模型(LLMs)在政府领域核心能力的基准数据集。它包含50个测试提示和一个专门的评估工具GovRelBERT。GovRelBench的创建旨在通过评估模型输出与政府领域的相关性来衡量其性能,从而弥补当前评估模型在政府领域核心能力方面的不足。GovRelBench的创建过程涉及使用自爬取数据结合从开源数据集中筛选出的特定领域数据,并应用SoftGovScore方法进行训练。该数据集的应用领域主要集中在政府领域,旨在解决评估模型在政府领域内表现的问题。
GovRelBench is a benchmark dataset specifically designed to evaluate the core capabilities of Large Language Models (LLMs) in the government domain. It includes 50 test prompts and a dedicated evaluation tool named GovRelBERT. The development of GovRelBench aims to measure model performance by assessing the relevance of model outputs to the government domain, thereby filling the existing gap in evaluating models' core capabilities within the government sector. The creation process of GovRelBench involves using self-crawled data combined with domain-specific data screened from open-source datasets, and applying the SoftGovScore method during training. This dataset is primarily targeted at the government domain, designed to address the challenge of evaluating model performance within the government field.
提供机构:
中国科学院成都计算机应用研究所,中国科学院大学
创建时间:
2025-07-29
原始信息汇总
GovRelBench数据集概述
数据集基本信息
- 数据集名称:GovRelBench
- 托管平台:Hugging Face
- 数据集地址:https://huggingface.co/datasets/pansysy/GovRelBench
相关资源
- 关联模型:GovRelBERT
- 模型地址:https://huggingface.co/pansysy/GovRelBERT
搜集汇总
数据集介绍

构建方式
在政府领域评估大型语言模型(LLMs)的核心能力时,现有研究多聚焦于特定场景下的安全性考量,而对模型自身核心能力尤其是领域相关性的评估则相对不足。为填补这一空白,GovRelBench应运而生,旨在为政府领域LLMs的核心能力评估提供专门基准。该数据集的构建过程包括政府领域提示词的精心设计以及专用评估工具GovRelBERT的开发。在训练GovRelBERT的过程中,研究团队创新性地引入了SoftGovScore方法,通过将硬标签转化为软分数,基于ModernBERT架构训练模型,使其能够精确计算文本与政府领域的相关性分数。
特点
GovRelBench数据集的特点在于其专注于政府领域的相关性评估,通过精心设计的50个提示词(其中45个为政府领域任务,5个为新闻类任务)覆盖了政府领域的典型场景。数据集的核心创新在于SoftGovScore方法,该方法利用Beta分布将硬标签转化为软分数,从而更精确地量化文本与政府领域的相关性。此外,数据集还提供了专用的评估工具GovRelBERT,该工具基于ModernBERT架构,具有高效的长文本处理能力和优化的推理性能,能够在资源有限的情况下实现快速部署。
使用方法
使用GovRelBench数据集进行政府领域相关性评估的方法较为直观。首先,将数据集中的提示词输入待评估的LLMs,收集模型生成的响应文本。随后,利用训练好的GovRelBERT模型对这些响应文本进行评分,计算其与政府领域的相关性分数。这一评分过程不仅能够量化LLMs在政府领域的表现,还能通过分析分数的分布和方差,揭示模型在不同政府子领域的知识掌握程度。数据集的设计使得评估过程既适用于横向比较不同LLMs的性能,也适用于纵向跟踪单一模型在政府领域能力的演进。
背景与挑战
背景概述
GovRelBench是由中国科学院成都计算机应用研究所的研究团队于2025年提出的政府领域相关性评估基准。该数据集旨在填补当前大语言模型在政府领域评估中的空白,特别是针对模型核心能力——领域相关性的系统化评估。研究团队通过构建包含50个政府领域提示词的专业评测集,并创新性地开发了基于ModernBERT架构的评估工具GovRelBERT,引入SoftGovScore方法将离散标签转化为连续相关性分数。这一工作为政府领域的大模型能力评估提供了标准化框架,对推动领域专用模型的发展具有重要意义。
当前挑战
构建GovRelBench面临双重挑战:在领域问题层面,政府文本与新闻等领域存在显著语义重叠,传统二元分类方法难以捕捉细粒度相关性;在技术实现层面,需解决长文本处理效率与评分精度平衡的问题,特别是当处理政府工作报告等专业文献时。数据集构建过程中,研究团队需克服政府领域知识的地域差异性难题,并通过Beta分布扩散算法将主观标注的硬标签转化为可量化的软分数,这一过程对数据清洗和标注一致性提出极高要求。
常用场景
经典使用场景
在自然语言处理领域,GovRelBench数据集被广泛应用于评估大型语言模型在政府领域的相关性表现。通过提供50个精心设计的政府领域提示词,研究者能够系统地测试模型生成的文本与政府事务的相关性。该数据集特别适用于比较不同模型在政府专业领域的理解深度,为模型优化提供了明确的方向。
衍生相关工作
基于GovRelBench的研究已衍生出多个重要方向,包括政府领域预训练模型的微调方法、跨领域相关性迁移学习等。特别值得注意的是,其SoftGovScore技术已被拓展应用于医疗、法律等专业领域,形成了系列领域适应性评估框架。相关工作发表在ACL、EMNLP等顶级会议,推动了领域特定评估方法论的发展。
数据集最近研究
最新研究方向
随着大语言模型在政府领域的应用日益广泛,GovRelBench数据集的提出填补了该领域评估体系的空白。当前研究聚焦于通过SoftGovScore方法实现文本与政府领域相关性的精细化量化,突破了传统二元分类的局限。前沿探索体现在将Beta分布引入标签扩散过程,构建连续评分机制以捕捉政府文本的语义模糊性。这一创新为评估模型的领域适应能力提供了新范式,尤其对政务智能化、政策文本分析等热点场景具有重要价值。数据集通过融合多源异构数据与自建评估工具,为政府领域大模型的性能优化与安全部署奠定了基准框架。
相关研究论文
- 1GovRelBench:A Benchmark for Government Domain Relevance中国科学院成都计算机应用研究所,中国科学院大学 · 2025年
以上内容由遇见数据集搜集并总结生成



