3CEL ( Corpus of Legal Spanish Contract Clauses )
收藏arXiv2025-01-27 更新2025-02-25 收录
下载链接:
http://arxiv.org/abs/2501.15990v1
下载链接
链接失效反馈官方服务:
资源简介:
3CEL是由西班牙马德里理工大学和知识工程研究所共同开发的法律西班牙语合同条款语料库,作为INESData 2024项目的一部分。该数据集包含373个经过人工注释的招标文件,使用19个定义好的类别对关键信息进行标注。数据集的构建目的是为了在法律/行政领域中应用自然语言处理技术,并解决合同理解和审查中的信息提取问题。
3CEL is a legal Spanish contract clause corpus jointly developed by the Universidad Politécnica de Madrid (UPM) and the Knowledge Engineering Institute as part of the INESData 2024 project. The dataset comprises 373 manually annotated tender documents, with key information labeled using 19 predefined categories. Developed to support the application of natural language processing technologies in the legal and administrative domains, this dataset aims to address information extraction challenges in contract understanding and review.
提供机构:
西班牙马德里理工大学(Universidad Politécnica de Madrid)
创建时间:
2025-01-27
搜集汇总
数据集介绍

构建方式
3CEL数据集的构建基于INESData 2024项目,该项目由马德里理工大学(UPM)和知识工程研究所(IIC)领导开发。数据集包含了373份经过手动标注的西班牙公共部门采购平台的招标文件,这些招标文件是用西班牙语书写的,执行地点在马德里地区,时间跨度从2021年12月到2023年12月。数据集的构建过程包括数据收集、标签集定义、文档转录、过滤和清理、匿名化和标注五个步骤。首先,从公共部门采购平台下载了500份招标文件,并按照招标类型和长度进行筛选和清理。然后,根据专家的知识和合同审查的需求,定义了19个标签,用于标注合同中的关键信息。接着,对招标文件进行OCR转录,并使用NER模型和正则表达式进行匿名化处理。最后,采用盲注和同行评审的方式进行标注,确保标注的一致性和准确性。
特点
3CEL数据集的特点在于其高质量的手动标注和针对西班牙法律行政领域的特定标签集。数据集包含了373份招标文件,这些文件涵盖了合同规定、合同危机和合规问题等19个标签,共计4782个标注。这些标签涵盖了合同中的关键信息,如合同对象、合同价格、合同期限、违约金等。此外,数据集还采用了匿名化处理,保护了个人隐私。3CEL数据集是一个宝贵的资源,可用于法律信息提取和合同审查等任务。
使用方法
使用3CEL数据集进行模型微调的过程包括以下几个步骤:首先,将数据集随机分为训练集和测试集。然后,使用预训练的模型如xlm-roberta-large、legal-xlm-roberta-large、RoBERTalex和MEL进行微调。微调过程中,使用宏F1分数作为评估指标,以衡量模型在处理类别不平衡数据时的性能。微调完成后,模型需要预测文本中的跨度,并为其分配相应的标签。实验结果表明,MEL模型在18个标签和15个标签的微调任务中均取得了最佳的性能。
背景与挑战
背景概述
在自然语言处理(NLP)领域中,法律文本信息提取是一项关键任务,尤其对于西班牙语等语言而言,由于数据获取和法律专家知识的可用性限制,相关资源显得尤为珍贵。3CEL数据集,即《西班牙法律合同条款语料库》,是在INESData 2024项目框架内开发的,该项目由马德里理工大学(UPM)领导,并由知识工程研究所(IIC)开发。3CEL数据集包含了373份由19个定义类别(共计4782个标签)手动标注的招标文件,这些类别用于识别合同理解和审查中的关键信息。该数据集的创建旨在解决西班牙语法律领域NLP资源稀缺的问题,并推动法律文本信息提取技术的发展。
当前挑战
3CEL数据集在构建过程中面临着多方面的挑战。首先,西班牙语法律领域的信息提取工具和资源相对匮乏,这限制了数据获取和专家知识的获取。其次,构建高质量的手动标注语料库需要大量的时间和经济资源,包括创建基于专家知识的标注指南、培训标注人员、应用盲注和同行评审方法以及质量指标等。此外,3CEL数据集的构建还需要处理文本转录、数据过滤和清洗、匿名化和标注等复杂的技术问题。最后,数据集的构建还需要解决标注过程中的歧义和不确定性问题,确保标注的一致性和准确性。
常用场景
经典使用场景
3CEL数据集,即西班牙法律合同条款语料库,是一个专门为自然语言处理(NLP)任务而创建的西班牙法律领域的合同信息提取语料库。该数据集包含了373个经过人工标注的招标文件,使用19个预定义的类别来识别合同理解和审查中的关键信息。这些类别包括合同规定、合同危机和合规性问题。3CEL数据集的经典使用场景包括但不限于合同信息提取、条款分类和合同理解等。通过使用3CEL数据集,研究人员和开发者可以训练和评估NLP模型,以自动识别和分类合同中的关键信息,从而提高合同审查的效率和准确性。
解决学术问题
3CEL数据集解决了在西班牙法律领域进行自然语言处理时资源稀缺的问题。由于数据获取的困难和法律专家知识的缺乏,西班牙法律领域的NLP资源相对较少。3CEL数据集提供了高质量的人工标注合同语料库,为西班牙法律领域的NLP研究提供了宝贵的资源。该数据集的使用有助于解决合同信息提取、条款分类和合同理解等学术研究问题,推动了西班牙法律领域的自然语言处理研究的发展。
衍生相关工作
3CEL数据集的发布促进了西班牙法律领域的自然语言处理研究的发展,并衍生出了一系列相关的经典工作。这些工作包括但不限于基于3CEL数据集训练的NLP模型,如MEL模型,该模型在条款提取和分类任务中取得了优异的性能。此外,3CEL数据集还被用于开发合同审查系统、法律信息提取工具和合同理解模型等,为法律专业人士提供了更高效、更准确的服务。此外,3CEL数据集还推动了西班牙法律领域的自然语言处理研究的发展,为未来的研究工作提供了重要的参考和基础。总之,3CEL数据集的发布和应用推动了西班牙法律领域的自然语言处理研究的发展,并衍生出了一系列相关的经典工作,为法律专业人士提供了更高效、更准确的服务。
以上内容由遇见数据集搜集并总结生成



