CUFEInse

Hugging Face2025-08-30 更新2025-08-31 收录

下载链接：

https://huggingface.co/datasets/CUFEInse/CUFEInse

下载链接

链接失效反馈

官方服务：

资源简介：

CUFEInse是一个由中央财经大学保险学院和中国精算研究院设计并开源的保险领域评测基准，旨在评估大模型在保险任务中的真实能力。该基准全面覆盖了保险专业理论知识与应用场景，并包含5个维度的评测体系：保险理论知识、保险行业理解、保险安全合规、保险智能体应用和保险严谨性。该基准采用“定量为主、专家驱动、多重校验”的方法论，包含14,430道高质量题目，题型涵盖单项选择、多项选择、判断、简答、推理规划、检索问答及标签抽取等。此外，该基准还提供了综合评分策略，确保评估的全面性和可解释性。

CUFEInse is an open-sourced insurance domain evaluation benchmark designed by the School of Insurance of Central University of Finance and Economics (CUFE) and the China Institute of Actuarial Science, aiming to evaluate the real-world capabilities of Large Language Models (LLMs) in insurance-related tasks. This benchmark comprehensively covers professional theoretical knowledge and application scenarios of insurance, and incorporates a 5-dimensional evaluation framework: insurance theoretical knowledge, insurance industry understanding, insurance safety and compliance, AI Agent applications in insurance, and insurance rigor. Adopting the methodology of "quantitative-oriented, expert-driven, multi-validation", this benchmark includes 14,430 high-quality questions, with question types covering single-choice questions, multiple-choice questions, true/false questions, short-answer questions, reasoning and planning tasks, retrieval-based question answering, and label extraction, etc. In addition, this benchmark also provides a comprehensive scoring strategy to ensure the comprehensiveness and interpretability of the evaluation.

创建时间：

2025-08-25

原始信息汇总

CUFEInse 数据集概述

背景与意义

CUFEInse（中央财经大学 Insurance Evaluation Suite）是全球首个保险大模型专业评估体系，旨在填补保险领域大模型系统性评估的空白。该数据集由中央财经大学保险学院和中国精算研究院基于深厚学科积累设计，专注于客观衡量大语言模型在保险任务中的真实能力。

数据集构建

测评集构建

方法论：采用“定量为主、专家驱动、多重校验”方法，历经行业调研、专家命题、交叉复核、敏感性审查四步流程。
覆盖维度：包含5个核心评估维度：
- 保险理论知识（Insurance Theory）
- 保险行业理解（Industry Understanding）
- 保险安全合规（Regulatory & Security）
- 保险智能体应用（Agent Applications）
- 保险严谨性（Rigorous Reasoning）
题目规模：v1.0版本共收录14,430道高质量题目。
题型：涵盖单项选择、多项选择、判断、简答、推理规划、检索问答及标签抽取等。

评分机制

权重策略：一级维度权重相等，避免单一维度主导总体得分。
题目分布：二级子类题目按知识粒度均匀分布，确保测评结果具备可解释性与可对比性。

创新与价值

系统化保险学科知识体系：基于规范保险与精算学科体系进行系统性分类梳理与命题。
多级分类体系与题目占比优化：细粒度分类与权重设计，贴合保险实际业务场景。
强调逻辑严谨性与安全合规：增设“逻辑严谨性”与“合规与安全”维度，契合保险行业严监管特性。
涵盖保险精算与专业认证考试内容：确保精算数学公式、符号表达、计算过程的准确性与专业性。
模型架构适配性与计算效率优化：设计多尺度评估方案，支持计算效率评估。

获取与使用

获取方式

协议：遵循 Apache-2.0 协议开源。
开源平台：数据集开源至GitHub（https://github.com/CUFEInse/CUFEInse.git）和HuggingFace（https://huggingface.co/datasets/CUFEInse/CUFEInse）。

数据格式

字段包含：完整题目、题干、选项A-E和正确答案。
题目类型：完整题目包含提示词信息（如few-shot和zero-shot模式），题干仅含问题内容。
选项说明：精算类题目包含E选项，统一使用A-E选项格式。

示例数据

json { "完整题目": "以下是关于保险法的单项选择题，请直接给出正确答案的选项。题目：在人身保险合同具有现金价值的情况下，投保人可以按合同当时的现金价值扣除欠费及利息、借款及利息后的余额，作为一次交清的全部保险费，以相同的合同条件减少保额，合同继续有效，此种处理方法是：选项：A：减额交清 B：减保 C：退保 D：垫交保费从ABCD中选出唯一正确的答案。", "题干": "在人身保险合同具有现金价值的情况下，投保人可以按合同当时的现金价值扣除欠费及利息、借款及利息后的余额，作为一次交清的全部保险费，以相同的合同条件减少保额，合同继续有效，此种处理方法是", "A": "减额交清", "B": "减保", "C": "退保", "D": "垫交保费", "E": "", "答案": "A" }

测评报告

综合排名

基于综合得分，参评模型分为三个梯队：

第一梯队(>85分)：AntGroup Finix-S1(89.51分)、Gemini-2.5-Pro-0617(85.11分)
第二梯队(80-85分)：DeepSeek-R1-0528(84.20分)、Qwen3-235B-A22B-think(83.03分)、Qwen3-235B-A22B-instruct(82.66分)、DianJin-R1(80.35分)、Qwen3-32B-think(80.34分)
第三梯队(<80分)：Qwen3-32B-instruct(79.87分)、GPT-4o-1120(79.71分)、gpt-oss-120b(79.41分)、Fin-R1(71.46分)

关键发现

高质量领域模型优势显著：AntGroup Finix-S1在5大维度中4项第一，综合得分89.51分。
通用模型有亮点但不全面：Gemini-2.5-Pro-0617在保险理论维度排名第一，但智能体应用和逻辑严谨性有待提升。
推理机制价值验证：同一基础模型的“推理版”在保险理论、逻辑严谨性等表现均优于“非推理版”。
行业共性瓶颈识别：保险精算、核保核赔决策、文案合规性成为当前大模型在保险领域的三大共性瓶颈。

优化建议

领域模型：重点提升保险精算等专业深度，补充细分保险场景业务数据。
非领域模型：增加保险业务全流程的场景化训练，强化交叉领域知识融合。
开源模型：提供保险领域微调数据集，降低领域适配门槛。
弱势模型：从基础保险理论体系搭建入手，逐步拓展业务场景。

联系我们

邮箱：cufeinse@cufe.edu.cn
合作方式：欢迎通过GitHub、HuggingFace平台参与贡献题目样例、评估方法或技术方案。

搜集汇总

数据集介绍

构建方式

在保险科技迅猛发展的背景下，CUFEInse数据集采用专家驱动与多重校验的方法论构建而成。中央财经大学保险学院与中国精算研究院的专任教师基于学科体系，系统梳理保险理论知识，涵盖产品、制度、精算等八大类别。历经行业调研、专家命题、交叉复核及敏感性审查四步流程，最终形成包含14,430道高质量题目的测评集，题型多样，确保专业深度与评估全面性。

特点

作为全球首个保险大模型专业评估体系，CUFEInse具备多维度覆盖与精细分类的独特优势。数据集涵盖保险理论、行业理解、安全合规、智能体应用及严谨性五大维度，下设二级子类题目按知识粒度均匀分布。其创新性体现在强调逻辑严谨性与安全合规，深度融合精算专业内容，并优化题目占比以贴合实际业务场景，有效评估模型在保险领域的细分能力差异。

使用方法

CUFEInse数据集遵循Apache-2.0协议开源，用户可通过GitHub或HuggingFace平台获取。数据集提供完整题目、题干、选项及正确答案等字段，支持few-shot和zero-shot等多种测评模式。精算类题目统一采用A-E选项格式，用户可根据自身测评任务灵活调整题干内容，实现对大模型在保险专业知识、推理能力及场景适应性的全面评估。

背景与挑战

背景概述

保险行业作为高度监管且专业知识密集的领域，对大语言模型的评估提出了独特要求。中央财经大学保险学院与中国精算研究院基于其深厚的学科积累，于2024年推出了全球首个保险大模型专业评估体系CUFEInse。该数据集覆盖保险理论知识、行业理解、安全合规、智能体应用及严谨性五大维度，包含14,430道高质量题目，旨在系统化评估模型在保险领域的专业能力，填补了现有金融评估基准在保险精算、合规安全等核心领域的空白。

当前挑战

构建CUFEInse面临双重挑战：一是领域问题的复杂性，保险行业需处理精算计算、法规合规及多步推理等任务，要求模型具备高专业性和逻辑严谨性；二是构建过程中的技术难点，包括保险学科知识体系的系统化梳理、专家驱动的命题与多重校验，以及确保题目在专业性、敏感性和计算效率间的平衡，这些均需跨学科协作与精细设计。

常用场景

经典使用场景

在保险科技研究领域，CUFEInse数据集被广泛用于评估大语言模型在保险专业知识体系中的综合表现。该数据集通过覆盖保险理论、行业理解、安全合规、智能体应用和严谨性推理五大维度，为研究者提供了系统化的评测框架。典型应用包括对模型进行零样本和少样本测试，检验其在精算计算、核保决策、合规审查等专业任务中的准确性与稳定性，成为保险领域模型能力评估的金标准。

解决学术问题

该数据集有效解决了保险领域大模型评估中专业知识碎片化、深度不足的学术难题。通过系统化梳理保险学科体系，它填补了精算数学、合规安全等核心领域评估的空白，为量化模型在高度监管场景中的专业能力提供了科学依据。其多维度的评估体系推动了保险人工智能研究从通用能力向领域专业化纵深发展，建立了保险大模型评估的理论与方法学基础。

衍生相关工作

围绕CUFEInse数据集已衍生出多项重要研究工作，包括蚂蚁保险大模型的领域适配优化、基于推理增强的保险问答系统构建等。该基准还促进了保险领域微调技术的发展，推动开源社区构建针对精算计算和合规审查的专业数据集。后续研究进一步拓展了多模态保险评估、跨境保险合规比对等方向，形成了完整的保险人工智能评估生态体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集