CPSDBench

Name: CPSDBench
Creator: 中国人民公安大学
Published: 2024-03-21 20:39:09
License: 暂无描述

arXiv2024-03-21 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2402.07234v3

下载链接

链接失效反馈

官方服务：

资源简介：

CPSDBench是一个专为评估中文公共安全领域大型语言模型性能而设计的数据集。由中国人民公安大学等机构的研究人员开发，该数据集整合了来自真实世界场景的公共安全相关数据，支持对大型语言模型在文本分类、信息提取、问答和文本生成等任务上的全面评估。数据集包含4000个样本，旨在通过模拟真实世界中遇到的复杂情况，更详细和全面地探索大型语言模型解析和生成与公共安全相关数据的能力。此外，该研究还引入了一套创新的评估指标，旨在更精确地量化大型语言模型在执行公共安全相关任务时的效能。

CPSDBench is a dataset specifically designed for evaluating the performance of large language models (LLMs) in the Chinese public safety domain. Developed by researchers from institutions including the People's Public Security University of China, this dataset integrates public safety-related data sourced from real-world scenarios, enabling comprehensive assessments of LLMs across multiple tasks such as text classification, information extraction, question answering, and text generation. The dataset comprises 4,000 samples, aiming to conduct a more detailed and comprehensive exploration of LLMs' abilities to parse and generate public safety-related data by simulating complex real-world scenarios. Furthermore, this study proposes an innovative set of evaluation metrics, which are intended to more precisely quantify the efficacy of LLMs when executing public safety-related tasks.

提供机构：

中国人民公安大学

创建时间：

2024-02-11

搜集汇总

数据集介绍

构建方式

在公共安全领域，评估大型语言模型的实际应用效能需要高度专业化的数据集支撑。CPSDBench的构建过程紧密围绕真实业务场景，通过系统收集来自实际警务工作的多源数据，涵盖文本分类、信息抽取、问答与文本生成四大核心维度。该数据集从微博舆情、电信诈骗记录、涉毒案件报告及警务指挥中心接警记录等渠道获取原始文本，经过严格的脱敏处理和专家标注，形成覆盖情感分析、谣言检测、案件分类等十项具体任务的标准化测试集。每个任务的数据规模经过精心设计，在保证评估统计效力的同时兼顾了商业模型调用成本，最终构建出兼具专业性与实用性的领域评估基准。

特点

CPSDBench的突出特点在于其鲜明的领域针对性与任务设计的系统性。数据集深度聚焦中文公共安全场景，不仅覆盖了从基层警务到网络空间治理的多层次业务需求，还引入了对抗性样本和敏感语境，以检验模型在复杂现实环境中的鲁棒性。其任务体系呈现出阶梯式难度分布，从基础的情感极性判别到需要多步推理的法律案例分析，逐步考察模型的深层语义理解与逻辑推演能力。此外，数据集创新性地设计了融合精确匹配与模糊相似度的混合评估指标，并针对实体识别等任务设置了严格的输出格式规范，从而实现对模型性能更细腻、更符合人类判断的量化评估。

使用方法

使用CPSDBench进行评估时，研究者需遵循其精心设计的提示工程框架。该框架明确规定了角色定义、任务描述、输入规范和操作约束四个核心要素，引导模型在预设的警务场景中执行特定任务。评估过程需调用涵盖开源与商业版本的多种主流大型语言模型API，在统一参数配置下获取预测结果。对于分类任务，采用准确率、精确率、召回率和F1值进行衡量；信息抽取任务则应用混合评分算法，结合精确匹配与编辑距离计算综合得分；生成类任务依赖BERTScore、BLEU和ROUGE等多维度指标评估文本质量。最终通过跨任务、跨模型的对比分析，系统揭示各模型在公共安全领域的优势与局限。

背景与挑战

背景概述

随着大语言模型在通用领域的卓越表现得到验证，其在垂直专业领域的应用潜力与适配性评估成为研究焦点。在此背景下，中国公共安全领域亟需一个专业的评估基准，以衡量主流大语言模型处理涉警任务的效能。CPSDBench应运而生，由中国人民公安大学、公安部第三研究所及清华大学等机构的学者于2024年联合构建。该数据集旨在系统评估大语言模型在文本分类、信息抽取、问答及文本生成四大核心维度上的表现，其数据均源自真实公共安全业务场景，如电信诈骗检测、涉毒案件信息提取等。CPSDBench的建立填补了公共安全领域专用评估工具的空白，为后续开发面向该领域的高精度、定制化模型提供了关键参考依据与评测基线。

当前挑战

CPSDBench所应对的核心领域挑战在于，如何精准评估大语言模型在公共安全这一高敏感、高严谨性垂直领域的专业任务处理能力。该领域任务，如案件分类、欺诈信息识别等，对模型的准确性、可靠性及对对抗性样本的鲁棒性提出了远超通用场景的苛刻要求。在数据集构建过程中，研究者面临多重挑战：其一，数据采集与标注涉及大量敏感信息，需在确保数据可用性的同时严格遵守安全与隐私规范；其二，公共安全文本常包含专业术语、复杂案情描述及对抗性扰动，构建高质量、高保真的测试集难度显著；其三，设计能同时兼顾任务特异性与评估公平性的创新性评测指标，例如为信息抽取任务设计的两阶段混合评估指标，以应对模型输出与标准答案语义一致但字面表述差异的复杂情况。

常用场景

经典使用场景

在公共安全领域，大语言模型的应用评估面临专业性与适应性的双重挑战。CPSDBench作为专门针对中文公共安全领域设计的评估基准，其经典使用场景聚焦于对主流大语言模型在文本分类、信息抽取、问答及文本生成四大核心任务上的系统性性能测评。该数据集通过整合来自真实业务场景的数据，如社交媒体情感分析、电信诈骗检测、涉毒案件实体识别及警务报告生成等，构建了一个紧密贴合实战需求的评估框架，旨在精准衡量模型在复杂、敏感且高要求的公共安全任务中的实际表现。

衍生相关工作

围绕CPSDBench数据集，衍生出一系列聚焦于公共安全领域大语言模型能力探索与提升的相关工作。例如，基于其评估结果，研究者进一步探究了模型参数规模、语言特异性与任务难度对性能的影响机制，并针对模型中存在的敏感内容过滤过度、输出格式错误、指令理解偏差等问题提出了改进策略。这些工作不仅深化了对模型在专业领域局限性的认识，也促进了领域适配的提示工程、安全对齐及微调方法的发展，为构建更可靠、高效的公共安全专用模型奠定了理论基础。

数据集最近研究