Multi-Turn-Insurance-Underwriting
收藏Hugging Face2025-05-29 更新2025-05-30 收录
下载链接:
https://huggingface.co/datasets/snorkelai/Multi-Turn-Insurance-Underwriting
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含商业核保人与AI助手之间多轮交互痕迹和元数据的数据集,用于处理小型企业最近的保险申请任务。数据集包括6种不同的任务类型,需要3-7步推理和工具使用,涉及10-20轮对话。
提供机构:
Snorkel AI
创建时间:
2025-05-22
原始信息汇总
Multi-Turn-Insurance-Underwriting 数据集概述
数据集摘要
- 内容:包含商业承保人与AI助手之间的多轮交互轨迹及相关元数据。
- 场景:针对小型企业保险申请的相关任务。
- 特点:
- 覆盖6种不同类型的任务。
- 平均需要3-7步推理和工具使用。
- 包含10-20轮对话。
- 创建者:Snorkel AI
- 许可证:Apache-2.0 License
数据集创建
- 架构:通过种子问题生成任务,承保人提问,AI助手通过工具(如食欲矩阵、SQL数据库、承保指南)进行推理并最终解决问题。
- 验证:每个数据点由特许财产意外险承保人(CPCU)验证,并包含4个评分标准:
- 工具准确性
- 工具效率
- 解决方案简洁性
- 解决方案准确性
数据集任务类型
| 任务类型 | 频率 | 描述 |
|---|---|---|
deductible_recommendation |
21 | 为公司推荐适当的保单免赔额 |
naics_classification |
20 | 根据公司业务描述找到正确的6位NAICS代码 |
limits_recommendation |
19 | 为公司推荐合适的保单限额 |
appetite_determination |
19 | 确定公司是否符合特定业务的承保要求 |
lob_recommendation |
16 | 为公司推荐其他相关保险产品或业务线 |
small_business_eligibility |
5 | 确定公司是否符合小企业资格 |
数据集结构
- 样本量:100条轨迹(66条正确,34条不正确)。
- 模型使用:
o3:52条claude-3-7-sonnet-latest:48条
- 字段:
company_description:公司描述building_construction:建筑构造信息state:公司所在州lob:业务线annual_revenue:年收入number_of_employees:员工数量assistant_model_name:AI助手模型名称trace:包含完整交互轨迹的JSON列表reference_answer:预期答案correct:AI助手回答是否正确
注意事项
- 数据来源:基于合成和公开的公司及承保信息,无敏感数据风险。
- 局限性:
- 数据非真实日志,可能缺乏真实场景的变异性或模糊性。
- 保险行业高度监管,数据集可能随时间变得过时或不合规。
引用
bibtex @misc{snorkelai2025multiturninsurance, author = {Snorkel AI}, title = {Multi-Turn Insurance Underwriting}, year = {2025}, howpublished = {https://huggingface.co/datasets/snorkelai/Multi-Turn-Insurance-Underwriting}, }
快速开始
python from datasets import load_dataset ds = load_dataset("snorkelai/Multi-Turn-Insurance-Underwriting")
搜集汇总
数据集介绍

构建方式
该数据集构建于商业核保师与AI助手之间的多轮交互轨迹,采用langgraph框架与模型上下文协议(model context protocol)实现智能体架构。通过设计6类典型保险核保任务(如免赔额推荐、NAICS分类等),每个任务样本包含3-7步推理过程及10-20轮对话交互。数据生成过程中,AI助手可调用承保矩阵、SQL数据库等工具链,并由特许财产意外核保师(CPCU)对每个数据点的工具准确性、解决方案简洁性等4项指标进行专业验证。
特点
数据集聚焦小企业保险核保场景,其核心价值在于呈现复杂决策逻辑下的多轮推理过程。特点体现在三个方面:任务多样性覆盖6类核保子领域,每类任务均包含细分逻辑;对话轨迹完整记录工具调用、追问澄清等交互细节;标注体系包含步骤级评分与最终答案准确性验证。特别值得注意的是,34%的错误响应样本为研究AI失败模式提供了珍贵素材。
使用方法
使用该数据集时,建议通过HuggingFace的datasets库直接加载。数据字段包含企业描述、年收入等结构化特征,以及记录完整对话逻辑的trace字段(JSON格式)。研究者可重点分析AI_RESPONSE步骤中的工具调用策略,或通过correct字段评估模型表现。该数据集特别适用于验证大语言模型在需要专业工具协作的多轮对话任务中的表现,但需注意其基于合成数据的特点可能导致与真实场景的偏差。
背景与挑战
背景概述
Multi-Turn-Insurance-Underwriting数据集由Snorkel AI于2025年构建,旨在评估大型语言模型在多轮保险承保任务中的表现。该数据集涵盖了6种不同类型的保险承保任务,包括免赔额推荐、NAICS分类、限额推荐等,每种任务平均需要3-7步推理和工具使用,涉及10-20轮对话。数据集的设计基于商业承保人与AI助手之间的多轮交互,采用了langgraph框架和模型上下文协议,确保了任务的复杂性和真实性。该数据集的创建为保险承保领域的自动化研究提供了重要基准,推动了相关技术在复杂决策场景中的应用。
当前挑战
Multi-Turn-Insurance-Underwriting数据集面临的挑战主要包括两个方面。首先,在领域问题方面,保险承保任务通常涉及复杂的逻辑和多轮交互,要求模型具备精准的推理能力和高效的工具体系,这对现有语言模型提出了较高要求。其次,在构建过程中,数据集需要模拟真实的承保场景,同时确保任务的多样性和复杂性。尽管数据集经过特许财产意外险承保人(CPCU)的验证,但由于其基于合成数据而非真实日志,可能缺乏真实对话中的自然变异性和模糊性。此外,保险行业的监管环境动态变化,数据集需定期更新以保持合规性和时效性。
常用场景
经典使用场景
在保险核保领域,Multi-Turn-Insurance-Underwriting数据集为研究多轮对话系统在复杂决策场景中的应用提供了重要资源。该数据集通过模拟商业核保员与AI助手之间的交互,涵盖了六种典型核保任务,如免赔额推荐、NAICS分类等,每项任务平均需要3-7步推理和工具调用。这种结构化的多轮对话数据,为开发能够处理复杂保险核保流程的对话系统提供了理想的测试平台。
解决学术问题
该数据集有效解决了自然语言处理领域关于多轮对话系统中工具调用与复杂推理的关键问题。通过提供经过专业核保师验证的对话轨迹,研究者可以深入探索大语言模型在需要多步工具调用和领域知识推理场景下的表现。数据集包含的步骤级评估指标(如工具准确性和解决方案准确性)为量化模型在专业领域的推理能力提供了标准化框架。
衍生相关工作
基于该数据集的特点,已衍生出多个研究方向,包括保险领域专用对话系统的构建、多模态工具调用机制的优化,以及专业领域大语言模型的微调方法。相关工作探索了如何将LangGraph框架与模型上下文协议相结合,创建更可靠的核保辅助系统。部分研究还聚焦于评估不同大语言模型在专业金融场景中的表现差异,为行业模型选型提供参考。
以上内容由遇见数据集搜集并总结生成



