five

chinese_insurance_doc_parsing

收藏
Hugging Face2024-06-27 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/kaihe/chinese_insurance_doc_parsing
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集清洗自天池实验室公共数据集,结合原数据集的标注和pdf文档解析工具,构造了alpaca格式的数据。数据集主要包含从pdf文件中提取的保险条款原文,这些原文经过重新组织,以清晰可读的格式呈现,包括保险公司的全称、保险产品名、章节和子章节的序号、章节序号和章节名、章节具体内容等。
创建时间:
2024-06-26
原始信息汇总

数据集概述

本数据集清洗自天池实验室公共数据集,结合原数据集的标注和pdf文档解析工具,构造了alpaca格式的数据。数据集内容为某保险条款的原文及其重新组织的清晰可读格式。

数据格式

数据集采用alpaca格式,包含以下字段:

  • Instruction: 说明如何重新组织保险条款原文,使其清晰可读。
  • Input: 使用pdfminer直接提取的字符串,包含保险条款的原始文本。
  • Output: 重新组织的保险条款文本,满足以下要求:
    1. 第一行是保险公司的全称。
    2. 第二行是保险产品名。
    3. 章节和子章节的序号统一用数字1-9表示。
    4. 章节序号和章节名写在同一行,用空格进行间隔;章节具体内容放在下一行。
    5. 章节和章节之间空一行。

示例

输入

使用pdfminer直接提取的字符串 中国太平洋人寿保险股份有限公司

个人税收递延型养老年金保险(2018 版)

产品基本条款

第一条 合同构成

个人税收递延型养老年金保险(2018 版)产品合同(以下简称“本合同”)由保险单及 所附个人税收递延型养老年金保险(2018 版)产品基本条款(以下简称“本合同基本条款 (2018 版)”)、个人税收递延型养老年金保险(2018 版)产品账户利益条款(以下简称“本 合同账户利益条款(2018 版)”)、投保单、与本合同有关的其他投保文件、变更申请书、声 明、批注、附贴批单及其他书面协议构成。

本合同遵循个人税收递延型商业养老保险的相关政策规定(以下简称“税延政策规定”),

投保人所交纳的保险费在规定额度内允许税前扣除。

第二条 投保范围

1.被保险人范围:凡符合税延政策规定,16周岁(详见释义1.)以上,且投保时年龄未

达到国家规定退休年龄(详见释义2.)的个人,可作为被保险人参加本保险。

2.投保人范围:本合同的投保人为被保险人本人。

第三条 合同成立与生效

投保人提出保险申请、中国太平洋人寿保险股份有限公司(以下简称“本公司”)同意

承保,本合同成立,合同成立日期在保险单上载明。

除另有约定外,自本合同成立、本公司收取首期保险费并签发保险单的次日零时起本 合同生效,本公司开始承担保险责任,合同生效日期在保险单上载明。本合同生效日即为 保单生效日。

第四条 合同内容变更

投保人和本公司可以协商变更本合同的有关内容。变更本合同的,投保人应填写变更合 同申请书,经本公司审核同意后,由本公司在保险单或其他保险凭证上批注或附贴批单,或 由投保人和本公司订立变更的书面协议。合同内容的变更应符合税延政策规定。

第五条 投保人解除合同的手续及风险

1.本合同生效后,若被保险人患本合同所指的重大疾病(详见释义 3.),投保人可以申 请解除本合同。若投保人在开始领取养老年金前申请解除本合同,本公司退还申请解除合同 时的产品账户价值,并按税延政策规定扣除对应的应纳税款,注销产品账户。若投保人在开 始领取养老年金后申请解除本合同,处理方式如下:

(1)如投保人选择保证返还账户价值终身月领(或年领)方式,且申请解除合同时本 公司已给付的养老年金总和(扣除应纳税款前)小于养老年金开始领取日的产品账户价值, 本公司退还养老年金开始领取日的产品账户价值与已给付的养老年金总和(扣除应纳税款 前)的差额,并按税延政策规定扣除对应的应纳税款。

(2)如投保人选择固定期限 15(或 20、25)年月领(或年领),本公司退还固定领取

期内尚未给付的养老年金之和(扣除应纳税款前),并按税延政策规定扣除对应的应纳税款。

除上述情形外,投保人不得解除本合同。 2.投保人要求解除本合同时,应填写合同解除申请书,并提供下列证明和资料: (1)保险合同; (2)投保人的有效身份证件; (3)本公司认可医院(详见释义 4.)的专科医生(详见释义 5.)出具的附有病历、必

要病理检验、血液检验及其他科学方法检验报告的疾病诊断书;

(4)解除合同时需要的其他相关材料。 3.如果委托他人代为办理,受托人除提供上述证明和资料外,须另行出具委托人的授权

委托书和受托人的有效身份证件。

4.自本公司收到合同解除申请书及上述证明和资料之日起,本合同终止。

第六条 合同终止

以下任何一种情况发生时,本合同终止: 1.在本合同保险期间内解除本合同的; 2.本公司已经履行完毕保险责任的; 3.本合同因条款所列其他情况而终止的。

第七条 保险期间

本合同保险期间自本合同生效日零时开始,保险期间为终身或长期。若投保人选择保证

返还账户价值终身月领(或年领)的,保险期间为终身;若投保人选择固定期限 15(或 20、 25)年月领(或年领)的,保险期限为长期。

第八条 养老年金开始领取日及领取方式

投保人须在投保时指定养老年金开始领取日及领取方式: 1.养老年金开始领取日不得早于国家规定退休年龄; 2.养老年金领取方式为保证返还账户价值终身月领(或年领)、固定期限 15(或 20、25)

年月领(或年领);

3.被保险人开始领取养老年金前,投保人可以申请变更养老年金开始领取日或领取方

式,变更应符合税延政策规定;

4.被保险人开始领取养老年金后,不得变更养老年金领取方式。

第九条 保险责任
在本合同保险期间内,本公司承担下列保险责任:

1.养老年金 被保险人生存至养老年金开始领取日,本公司根据被保险人在养老年金开始领取日的产

品账户价值,按投保人指定的养老年金领取方式及投保时本公司提供的养老年金领取标准 表,确定被保险人每月(或每年)养老年金领取金额,养老年金领取方式及领取金额将在领 取凭证上载明。被保险人开始领取养老年金后,本公司注销产品账户,并按被保险人选定的 领取方式按期给付养老年金,同时按税延政策规定从当期给付的养老年金中扣除应纳税款。 本公司提供的养老年金领取方式为保证返还账户价值终身月领(或年领)、固定期限 15

(或 20、25)年月领(或年领):

(1)保证返还账户价值终身月领(或年领) 在养老年金开始领取日及其后每月(或每年)的对应日,如被保险人生存,本公司按确定 的领取金额给付养老年金,并按税延政策规定扣除当期给付的养老年金对应的应纳税款,直 至被保险人身故或身体全残(详见释义 6.),本合同终止。如被保险人身故或身体全残时, 本公司已给付的养老年金总和(扣除应纳税款前)小于养老年金开始领取日的产品账户价值, 本公司按养老年金开始领取日的产品账户价值与已给付的养老年金总和(扣除应纳税款前) 的差额一次性给付,并按税延政策规定扣除对应的应纳税款,本合同终止。

(2)固定期限 15(或 20、25)年月领(或年领) 在养老年金开始领取日及其后每月(或每年)的对应日,如被保险人生存,本公司按确定 的领取金额给付养老年金, 并按税延政策规定扣除当期给付的养老年金对应的应纳税款,直 至固定领取期限届满,本合同终止。如被保险人在固定领取期限届满前身故或身体全残,本 公司按固定领取期内尚未给付的养老年金之和(扣除应纳税款前)一次性给付, 并按税延政 策规定扣除对应的应纳税款,本合同终止。

2.身故保险金 被保险人于开始领取养老年金前身故,且身故发生在 60 周岁保单生效对应日(详见释

义 7.)前,本公司给付申请身故保险金时的产品账户价值,并按税延政策规定扣除对应的 应纳税款,同时按申请身故保险金时的产品账户价值的 5%额外给付身故保险金,注销产品 账户,本合同终止。

被保险人于开始领取养老年金前身故,且身故发生在 60 周岁保单生效对应日后(含当 日),本公司给付申请身故保险金时的产品账户价值,并按税延政策规定扣除对应的应纳税 款,注销产品账户,本合同终止。

3.身体全残保险金 被保险人于开始领取养老年金前身体全残,且身体全残发生在 60 周岁保单生效对应日 前,本公司给付申请身体全残保险金时的产品账户价值,并按税延政策规定扣除对应的应纳 税款,同时按申请身体全残保险金时的产品账户价值的 5%额外给付身体全残保险金,注销 产品账户,本合同终止。

被保险人于开始领取养老年金前身体全残,且身体全残发生在 60 周岁保单生效对应日 后(含当日),本公司给付申请身体全残保险金时的产品账户价值,并按税延政策规定扣除 对应的应纳税款,注销产品账户,本合同终止。

第十条 责任免除
被保险人于开始领取养老年金前,因下列情形之一身故或身体全残的,本公司不承担 给付身故保险金或身体全残保险金的责任:

1.被保险人故意犯罪或抗拒依法采取的刑事强制措施; 2.被保险人主动吸食或注射毒品(详见释义 8.); 3.被保险人自本合同成立之日起二年内自杀,但自杀时为无民事行为能力人的除外。 发生上述情形导致被保险人身故的,本公司注销产品账户,本合同终止,本公司退还 申请给付时的产品账户价值,并按税延政策规定扣除对应的应纳税款,除另有规定外,按 被保险人遗产处理。

发生上述情形导致被保险人身体全残的,本公司注销产品账户,本合同终止,本公司

退还申请给付时的产品账户价值,并按税延政策规定扣除对应的应纳税款。

第十一条 保险费的交纳

1.本合同生效后至被保险人达到国家规定退休年龄前,投保人可按本合同的约定按年或 按月交纳保险费,交费方式和交费金额由投保人在投保时与本公司约定,约定的交费方式和 交费金额将在保险单上载明。

2.投保人可申请变更交费方式或交费金额。 3.投保人在申请变更交费方式或交费金额时,应填写申请书,并提供下列证明和资料:

(1)保险合同; (2)投保人的有效身份证件; (3)申请变更时需要的其他相关材料。

4.上述保险费的交纳事宜,应符合税延政策规定。

第十二条 保险金受益人的指定和变更

除本合同另有指定外,养老年金、身体全残保险金的受益人为被保险人本人。 投保人或被保险人可指定一人或数人为身故保险金受益人,受益人为数人时,应确定受

益顺序和受益份额;未确定受益份额的,各受益人按相等份额享有受益权。

投保人或被保险人可以变更身故保险金受益人,但须书面通知本公司,由本公司在保险

单上批注或附贴批单。

被保险人为无民事行为能力人或限制民事行为能力人的,可以由其监护人指定受益人。 被保险人身故后,有下列情形之一的,身故保险金作为被保险人的遗产,由本公司依照

《中华人民共和国继承法》的规定履行给付保险金的义务: 1.没有指定受益人或受益人指定不明无法确定的; 2.受益人先于被保险人身故,没有其他受益人的; 3.受益人依法丧失受益权或放弃受益权,没有其他受益人的。

被保险人和受益人在同一事件中身故,无法确定两者身故先后顺序的,推定受益人先于

被保险人身故。

受益人故意造成被保险人身故、伤残、疾病的,或故意杀害被保险人未遂的,该受益

人丧失受益权。

第十三条 保险事故通知

投保人、被保险人或受益人应在知道保险事故发生之日起 10 日内通知本公司。 如投保人、被保险人或受益人故意或因重大过失未及时通知本公司,致使保险事故的 性质、原因、损失程度等难以确定的,本公司对无法确定的部分,不承担给付保险金的责 任,但本公司通过其他途径已经及时知道或应当及时知道保险事故发生的除外。

第十四条 保险金的申请

1.申请养老年金时,由养老年金受益人作为申请人,填写保险金给付申请书,并提供下

列证明和资料:

(1)保险合同; (2)申请人及被保险人的有效身份证件; (3)被保险人已办理退休的有效证明; (4)税务部门要求的其他材料。 2.申请身故保险金时,由身故保险金受益人或其他有权领取保险金的人作为申请人填写

保险金给付申请书,并提供下列证明和资料:

(1)保险合同; (2)申请人的有效身份证件; (3)国家卫生行政部门认定的医疗机构、公安部门或其他相关机构出具的被保险人的

死亡证明;

(4)如被保险人为宣告死亡,申请人须提供法院出具的宣告死亡判决书; (5)申请人所能提供的与确认保险事故的性质、原因、伤害程度等有关的其他证明和

资料;

搜集汇总
数据集介绍
main_image_url
构建方式
chinese_insurance_doc_parsing数据集通过清洗天池实验室公共数据集并结合PDF文档解析工具构建而成。具体构建过程中,首先从PDF文件中提取原始文本,随后根据预定义的格式要求对文本进行重组,确保其结构清晰、易于阅读。数据集以alpaca格式呈现,包含指令、输入和输出三部分,旨在帮助模型学习如何将复杂的保险条款文本转换为标准化的格式。
特点
该数据集的特点在于其专注于中文保险文档的解析任务,涵盖了丰富的保险条款内容。数据集中的文本经过半自动化整理,确保了格式的统一性和内容的完整性。每条数据均包含保险公司名称、产品名称以及详细的条款内容,且章节和子章节的序号均采用统一的数字表示,便于后续的文本分析和模型训练。此外,数据集的构建充分考虑了保险文档的复杂性和多样性,能够有效支持自然语言处理任务中的文档解析和格式化需求。
使用方法
chinese_insurance_doc_parsing数据集可用于训练和评估自然语言处理模型,特别是针对中文保险文档的解析任务。用户可以通过加载数据集,输入原始的PDF提取文本,并利用模型生成符合格式要求的标准化保险条款。此外,该数据集还可用于研究保险文档的结构化表示、文本分类以及信息抽取等任务。使用过程中,建议结合预训练语言模型进行微调,以提升模型在特定领域任务中的表现。
背景与挑战
背景概述
chinese_insurance_doc_parsing数据集由天池实验室公共数据集清洗而来,旨在解决保险条款文档的自动化解析问题。该数据集结合了PDF文档解析工具,将原始的保险条款文本转换为结构化的格式,便于进一步的自然语言处理任务。保险条款文档通常包含复杂的法律术语和结构化的信息,直接解析这些文档存在较大难度。该数据集的构建为保险行业的自动化文档处理提供了重要的技术支持,尤其是在保险条款的自动分类、信息提取和语义理解等方面具有广泛的应用前景。
当前挑战
该数据集面临的主要挑战包括:1) 保险条款文档的复杂性和多样性,导致文本解析的难度较大,尤其是在处理PDF格式的文档时,字体、排版和空间结构等问题会显著影响解析效果;2) 保险条款中涉及的法律术语和行业专用词汇较多,要求模型具备较强的领域知识理解能力;3) 数据集的构建过程中,如何确保解析后的文本结构清晰且符合实际应用需求,也是一个重要的技术挑战。此外,保险条款的更新频率较高,如何保持数据集的时效性也是一个需要解决的问题。
常用场景
经典使用场景
在保险行业,尤其是涉及税收递延型养老保险的领域,`chinese_insurance_doc_parsing`数据集被广泛用于解析和重构复杂的保险条款文档。通过将PDF格式的保险条款转换为结构化的文本,该数据集帮助研究人员和从业者更高效地提取关键信息,如保险责任、投保范围、合同终止条件等。这种结构化处理不仅提升了文档的可读性,还为后续的自动化处理和数据分析奠定了基础。
解决学术问题
该数据集解决了保险文档解析中的多个学术研究问题,尤其是如何从非结构化的PDF文档中提取并重构出清晰、可读的文本内容。通过提供标准化的解析模板,数据集帮助研究人员克服了PDF文档中常见的排版混乱、字体不一致等问题,从而为自然语言处理(NLP)任务如文本分类、信息抽取和语义分析提供了高质量的输入数据。此外,该数据集还为保险行业的政策合规性研究提供了重要支持。
衍生相关工作
基于`chinese_insurance_doc_parsing`数据集,衍生了一系列与保险文档解析相关的经典工作。例如,研究人员开发了基于深度学习的PDF解析模型,能够自动识别并重构保险条款中的关键信息。此外,该数据集还被用于训练多语言保险文档解析系统,支持跨语言的保险条款分析。这些工作不仅推动了保险行业的数字化转型,还为其他领域的文档解析研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作