PAYSLIPS
收藏arXiv2024-12-12 更新2024-12-14 收录
下载链接:
https://github.com/buthaya/payslips
下载链接
链接失效反馈官方服务:
资源简介:
PAYSLIPS数据集是由SCOR和布雷斯特大学等机构创建的,专门用于保险领域中的命名实体识别任务。该数据集包含611页的匿名保险工资单,标注了财务信息,数据来源于残疾保险的工资单。数据集的创建过程包括手动匿名化处理,并由保险专家验证标注质量。PAYSLIPS数据集旨在解决保险领域中自动提取财务信息的问题,特别是在处理大量敏感数据时,确保隐私和安全。
The PAYSLIPS dataset was developed by institutions including SCOR and the University of Brest, and is specifically designed for named entity recognition (NER) tasks in the insurance domain. It comprises 611 pages of anonymized insurance payroll records with annotated financial information, with the data sourced from disability insurance payrolls. The dataset’s creation involved manual anonymization procedures, and its annotation quality was verified by insurance experts. The PAYSLIPS dataset aims to address the challenge of automated financial information extraction in the insurance sector, particularly when handling large volumes of sensitive data, while safeguarding privacy and security.
提供机构:
SCOR, 布雷斯特大学, CNRS, UMR 6205, LMBA, INSA Rennes, IRISA, Inria, CNRS, 雷恩大学
创建时间:
2024-12-12
搜集汇总
数据集介绍

构建方式
PAYSLIPS数据集的构建基于保险领域的财务文档,特别是与残疾保险相关的工资单。为了确保数据的隐私性和安全性,研究团队对这些文档进行了手动匿名化处理,删除了所有可能识别个人或公司的信息。数据集包含611页的标注页面,分为训练集485页和测试集126页。标注过程由熟悉文档的内部人员完成,并由保险专家进行验证,以确保标注的准确性和一致性。
特点
PAYSLIPS数据集的主要特点是其高度专业化和稀疏性。数据集专注于保险领域的工资单,涵盖了九个特定的财务字段,如支付周期、支付日期等。与其他类似数据集相比,PAYSLIPS的标注类别中‘O’类(非实体)占主导地位,这为命名实体识别任务带来了挑战。此外,数据集的隐私保护措施确保了其在敏感领域的适用性。
使用方法
PAYSLIPS数据集主要用于命名实体识别(NER)任务,特别是在保险领域的财务文档处理中。研究者可以使用该数据集来训练和评估模型,如LAYOUTLM,以提高模型在特定领域文档中的表现。数据集的稀疏性和专业性使其成为测试模型在复杂文档中提取信息能力的理想选择。此外,数据集的公开性为研究者提供了在受限数据环境中进行实验的机会。
背景与挑战
背景概述
PAYSLIPS数据集由SCOR和Univ Brest等机构的研究人员创建,专注于保险领域的财务文档命名实体识别(NER)任务。该数据集包含611页经过匿名化的保险相关财务文档,旨在解决通用预训练神经网络在特定领域(如金融和保险)中表现不佳的问题。由于隐私约束,特定领域的数据通常稀缺,PAYSLIPS的构建填补了这一空白,为模型在保险领域的应用提供了宝贵的资源。
当前挑战
PAYSLIPS数据集面临的主要挑战包括:1) 数据稀缺性,由于隐私保护法规,获取和公开相关数据非常困难;2) 数据集的稀疏性,其中大部分标签为‘O’类,增加了信息提取的难度;3) 模型在处理特定领域文档时的性能提升问题,尽管预训练在相关领域文档上有所帮助,但如何在有限数据下保持高性能仍是一个挑战;4) 推理速度与模型性能的平衡,尤其是在需要快速处理大量文档的场景中。
常用场景
经典使用场景
PAYSLIPS数据集主要用于保险领域中的命名实体识别(NER)任务,特别是针对匿名的保险相关财务文档。通过该数据集,研究人员可以训练和评估模型在提取薪资单中的关键财务信息(如支付日期、净支付金额等)方面的表现。PAYSLIPS的独特之处在于其专注于结构化文档中的空间信息,使得模型能够更好地理解文档布局,从而提高信息提取的准确性。
衍生相关工作
PAYSLIPS数据集的发布激发了大量相关研究工作,特别是在文档分析和命名实体识别领域。例如,基于PAYSLIPS的研究进一步探索了如何在预训练阶段使用更小的模型和更相关的数据集来提升性能。此外,PAYSLIPS还启发了对LAYOUTLM模型的改进,如减少模型层数以提高推理速度,同时保持较高的识别精度。这些工作不仅推动了文档处理技术的发展,也为其他领域的类似问题提供了参考。
数据集最近研究
最新研究方向
在保险领域,PAYSLIPS数据集的最新研究方向主要集中在通过领域特定的预训练策略提升命名实体识别(NER)任务的性能。研究者们发现,通用预训练模型在处理保险和金融等专业领域时表现不佳,主要原因是训练数据与下游任务之间的领域差异。为此,研究团队通过在PAYSLIPS数据集上进行预训练,展示了使用领域相关文档可以显著提升NER任务的效果,尤其是在数据量有限的情况下。此外,研究还表明,通过减少模型层数,可以在保持性能的同时提高推理速度,这对于需要快速处理大量文档的保险行业具有重要意义。
相关研究论文
- 1Training LayoutLM from Scratch for Efficient Named-Entity Recognition in the Insurance DomainSCOR, 布雷斯特大学, CNRS, UMR 6205, LMBA, INSA Rennes, IRISA, Inria, CNRS, 雷恩大学 · 2024年
以上内容由遇见数据集搜集并总结生成



