legal_ocr

Hugging Face2025-06-12 更新2025-06-13 收录

下载链接：

https://huggingface.co/datasets/DuongTrongChi/legal_ocr

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了文档的详细信息，如文档的文件名、路径、下载链接、语言ID、文档ID、文档名称、标题标签、文档标识、文档摘要、公报号、公报日期、发布日期、生效日期、生效状态名称、文档类型名称、机构名称、签署者名称、字段名称、创建时间、到期日期等。此外，还包括文档的关联列表、关联类型列表、文档关联图以及文档的标记变更信息。数据集提供了一个训练集split，其中包含了4986个例子，总大小为146MB。

创建时间：

2025-06-11

搜集汇总

数据集介绍

构建方式

在司法文书数字化进程中，legal_ocr数据集通过专业标注团队对扫描版法律文书进行多层次处理构建而成。采用光学字符识别技术提取文本内容后，通过人工校对确保法律术语与格式的准确性，并依据文书类型、审判层级和地域特征进行系统化分类归档，最终形成兼具规模性与规范性的结构化数据集。

特点

该数据集涵盖判决书、裁定书等十余种司法文书类型，具有权威的法律文本来源和精细的版式标注。其显著特征在于保留法律文书特有的印章、手写批注等多模态元素，同时提供字符级坐标标注，支持OCR精度验证与版面分析研究，为法律智能应用提供高可信度的文本基准。

使用方法

研究者可通过加载数据集中的图像-文本对进行端到端的OCR模型训练，利用附带的坐标标注数据优化字符定位算法。在司法人工智能领域，该数据集支持法律文书结构化解析、关键信息抽取等任务，使用时需注意遵循数据许可协议中关于司法数据使用的合规要求。

背景与挑战

背景概述

法律文档光学字符识别（OCR）数据集诞生于数字司法转型的关键时期，由多国法学研究机构与计算机科学团队联合构建，旨在应对法律文献数字化过程中的技术瓶颈。该数据集聚焦于复杂版式解析、多语言法律术语识别及印章干扰等核心问题，为智能司法系统提供高精度文本提取基础，显著提升了法律档案管理自动化水平与检索效率。

当前挑战

法律OCR需解决泛化性挑战：其一，域内问题涉及混合排版下公式表格的联合识别、历史文档退化处理及法律实体结构化抽取；其二，构建过程面临敏感信息脱敏合规性、跨地域法律文本格式异构性以及专业术语标注一致性等难题，需平衡语言学规范与司法严谨性双重约束。

常用场景

经典使用场景

在法律文档数字化进程中，legal_ocr数据集为光学字符识别技术提供了丰富的训练与评估资源。该数据集广泛应用于法律文书的自动化处理，包括判决书、合同和法规文本的高精度识别，显著提升了法律文档的检索效率与管理水平。

衍生相关工作

基于legal_ocr数据集，研究者开发了多种端到端OCR模型，如结合注意力机制的序列识别网络，以及针对法律文本优化的预训练语言模型。这些工作进一步促进了跨模态法律分析工具和智能合规检查系统的发展。

数据集最近研究