意大利最高法院判决数据集
收藏arXiv2025-05-13 更新2025-05-20 收录
下载链接:
http://arxiv.org/abs/2505.08439v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于意大利最高法院的判决构建的,旨在用于主题建模。数据集的创建过程结合了文档布局分析、光学字符识别和文本匿名化技术。通过文档处理流程,该数据集实现了对法律判决的文本内容的准确提取和分割,提高了光学字符识别的准确性,并确保了文本内容的结构化。此外,为了确保隐私合规,还集成了基于Transformer的命名实体识别模型,用于检测和匿名化敏感信息。该数据集的应用领域主要在于意大利法律领域的主题建模,旨在揭示法律文本中的潜在主题和结构,为信息检索和自动化判决分类等应用提供支持。
This dataset is constructed based on the judgments of the Supreme Court of Italy, and is intended for topic modeling. The creation process of this dataset integrates document layout analysis, optical character recognition (OCR), and text anonymization technologies. Through the document processing pipeline, this dataset enables accurate extraction and segmentation of the textual content of legal judgments, improves the accuracy of optical character recognition, and ensures the structuring of the textual content. Furthermore, to ensure privacy compliance, a Transformer-based named entity recognition (NER) model is integrated to detect and anonymize sensitive information. The main application scope of this dataset is topic modeling within the Italian legal domain, aiming to uncover potential topics and structures in legal texts, and providing support for applications such as information retrieval and automated judgment classification.
提供机构:
佛罗伦萨大学信息工程系, 佛罗伦萨大学法学系
创建时间:
2025-05-13
搜集汇总
数据集介绍

构建方式
意大利最高法院判决数据集通过一套严谨的文档处理流程构建而成。该流程首先将PDF格式的判决书转换为JPEG图像,随后运用YOLOv8X模型进行文档布局分析,准确识别文本段落、章节标题等结构元素。文本行检测同样采用YOLOv8X模型,而文本识别则使用基于Transformer架构的TrOCR模型,字符错误率低至0.0047。为保障隐私合规,采用GLiNER模型进行敏感信息匿名化处理,最终将处理后的文本以结构化JSON格式存储。整个流程特别注重段落级文本分割,以适配BERT等模型的上下文长度限制。
特点
该数据集具有三大显著特征:首先,其覆盖307份意大利最高法院刑事与民事判决,文档平均密度达每页250词,充分体现法律文本的复杂性。其次,创新性地融合计算机视觉与NLP技术,文档布局分析模块mAP@50达0.964,OCR识别模块词错误率仅0.0248,确保文本提取的高精度。最后,通过主题建模评估显示,经流程处理的文本较原始OCR结果在主题多样性(0.6198)与连贯性(0.6638)指标上均有显著提升,证明其特别适合探索性法律文本分析。
使用方法
该数据集主要应用于法律文本挖掘领域。研究者可加载预处理后的JSON文件,利用Distilled Legal-Italian BERT生成文本嵌入,通过UMAP降维后应用HDBSCAN聚类。主题建模推荐采用BERTopic框架,配合c-TF-IDF算法提取主题关键词。为增强结果可解释性,可使用Claude 3.7等大语言模型生成主题标签与摘要,其生成的摘要BERTScore F1达0.9130。数据集的匿名化设计使其符合GDPR要求,适合跨国研究合作,但需注意使用闭源LLM时需确保数据不离开欧盟服务器。
背景与挑战
背景概述
意大利最高法院判决数据集由佛罗伦萨大学的研究团队于2025年构建,旨在解决意大利法律领域主题建模研究的数据匮乏问题。该数据集包含307份来自Italgiure网站的民事和刑事判决书,通过创新的文档处理流程实现了文本提取、结构分析和匿名化处理。作为首个针对意大利最高法院判决的公开主题建模数据集,它不仅填补了意大利法律NLP研究的空白,也为比较法研究提供了宝贵资源。数据集采用计算机视觉与NLP技术相结合的方法,在确保GDPR合规的同时,显著提升了法律文本分析的自动化水平。
当前挑战
该数据集面临多重挑战:在领域问题层面,需解决意大利法律文本特有的复杂句式结构、专业术语以及判决书特有的修辞模式对主题建模的影响;在构建过程中,需克服PDF文档格式异构性、文本密度高导致的BERT模型截断问题,以及敏感信息匿名化与文本语义保持的平衡难题。具体技术挑战包括:文档布局分析需处理判决书中标题、页脚等多层次结构;OCR识别需应对法律文本特有的拉丁语术语和缩略语;主题建模需解决法律概念抽象性与上下文相关性之间的张力。
常用场景
经典使用场景
意大利最高法院判决数据集在法学研究和自然语言处理领域具有广泛的应用价值。该数据集通过结合计算机视觉和自然语言处理技术,实现了对意大利最高法院判决文档的结构化处理和主题建模。其经典使用场景包括法律文档的自动分类、判决结果的预测以及法律主题的发现。研究者可以利用该数据集进行法律文本的深度分析,挖掘判决文书中的潜在主题,从而为法律实践提供数据支持。
解决学术问题
该数据集解决了法学研究中缺乏公开可用的意大利法律文本数据集的问题,为法律主题建模提供了高质量的数据基础。通过文档布局分析和光学字符识别技术,数据集克服了法律文本结构复杂、隐私保护要求高的挑战。其意义在于推动了意大利法律领域的无监督学习方法应用,特别是主题建模技术,为法律信息检索和自动化判决分类提供了新的研究工具。数据集的高质量和匿名化处理也促进了法律AI研究的可重复性和开放性。
衍生相关工作
该数据集衍生了一系列相关研究工作,特别是在法律自然语言处理领域。基于该数据集,研究者开发了结合BERTopic和大型语言模型的法律主题解释系统。在计算机视觉方面,数据集推动了针对法律文档的定制化OCR和文档布局分析技术的发展。此外,数据集还启发了针对意大利语法律文本的专用嵌入模型(如Distilled Legal-Italian BERT)的开发,以及法律领域命名实体识别系统的优化。这些衍生工作共同推动了法律AI技术在意大利语场景下的进步。
以上内容由遇见数据集搜集并总结生成



