alea-legal-benchmark-sentence-paragraph-boundaries

Hugging Face2025-04-11 更新2025-04-12 收录

下载链接：

https://huggingface.co/datasets/alea-institute/alea-legal-benchmark-sentence-paragraph-boundaries

下载链接

链接失效反馈

官方服务：

资源简介：

ALEA法律基准数据集：用于句子和段落边界的检测。该数据集基于KL3M数据项目衍化而来，专为法律文档中的句子和段落边界检测设计，解决标准自然语言处理工具在处理法律文本时遇到的独特挑战。数据集通过使用大型语言模型进行多阶段注释过程创建，并由法律专家进行手动验证。它包含JSON格式的输入文本和注释输出，并在CC BY 4.0许可下提供。该数据集对于改进用于法律应用的检索增强生成系统非常有价值，并可用于训练和评估边界检测模型、段落分割工具，以及对法律文本上的NLP工具进行基准测试。

创建时间：

2025-03-30

原始信息汇总

ALEA Legal Benchmark: Sentence and Paragraph Boundaries 数据集概述

数据集描述

用途：为法律文档中的句子和段落边界检测提供全面基准
特点：针对法律文本特有的挑战设计，解决标准自然语言处理工具在法律文本中的局限性
应用价值：特别适用于改进法律应用中的检索增强生成（RAG）系统

数据集来源

原始数据集：来自KL3M法律文档
衍生方法：通过LLM进行手动和半自动标注
衍生目的：为法律文本提供高质量的句子和段落边界标注

数据集创建过程

从KL3M语料库中提取源文档
使用32-128个令牌的窗口随机选择法律文本片段
采用生成-判断-纠正框架进行标注
进行程序化验证确保字符级保真度
由法律专家进行质量和一致性审查

数据集详情

格式：JSON文件
许可证：CC BY 4.0
规模：
- 示例：45,739个
- 句子标签：107,346个（平均每个示例2.35个）
- 段落标签：97,667个（平均每个示例2.14个）
- 字节数：37,877,859
- 总字符数：约15.2M（不包括标签）

数据结构

每个示例包含：

source_identifier：源文档的唯一标识符
input：无边界标注的原始文本
output：带有显式句子和段落边界标记的文本

应用领域

法律文本句子边界检测模型的训练和评估
法律文档段落分割工具的开发
现有NLP工具在法律文本上的基准测试
法律语料库信息检索和提取的改进
法律应用中检索增强生成（RAG）系统的增强

法律依据

保持与原始KL3M数据项目相同的版权合规性

引用信息

bibtex @misc{bommarito2025legalsbd, title={Precise Legal Sentence Boundary Detection for Retrieval at Scale: NUPunkt and CharBoundary}, author={Bommarito II, Michael J. and Katz, Daniel Martin and Bommarito, Jillian}, year={2025}, eprint={2504.04131}, archivePrefix={arXiv}, primaryClass={cs.CL} }

bibtex @misc{bommarito2025kl3mdata, title={The KL3M Data Project: Copyright-Clean Training Resources for Large Language Models}, author={Bommarito II, Michael J. and Bommarito, Jillian and Katz, Daniel Martin}, year={2025}, eprint={2504.07854}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在法律文本处理领域，精准的句子和段落边界检测是构建高效检索系统的关键基础。该数据集源自ALEA研究所的KL3M数据项目，通过多阶段标注流程构建：首先从KL3M语料库中提取公共领域法律材料，采用32-128个token的窗口随机选取文本片段；随后运用生成-判断-校正框架，由大型语言模型进行边界标注和验证，并经过法律专家的质量审查；最终通过程序化验证确保字符级保真度，形成包含45,739个样本的高质量标注数据集。

特点

法律文本特有的引用格式、专业缩写和复杂句式对传统自然语言处理工具构成独特挑战。该数据集的核心价值体现在三个方面：标注规模上包含超过10万个句子边界和9万个段落边界标记；技术指标上支持开发的NUPunkt库达到91.1%的检测精度；应用层面上特别优化了法律检索增强生成系统，每个百分点的边界检测精度提升都能显著降低上下文碎片化错误。数据集采用JSON格式存储，完整保留原始文本的格式特征与边界标注的对应关系。

使用方法

该数据集为法律文本边界检测研究提供了标准化评估基准。使用者可通过Hugging Face的datasets库直接加载，输入字段包含原始法律文本，输出字段则标注了<|sentence|>和<|paragraph|>边界标记。典型应用场景包括：训练专用边界检测模型时，可对比模型输出与标注结果的差异；评估现有工具性能时，通过计算标记匹配率来衡量准确度；改进法律RAG系统时，利用精确边界信息增强上下文连贯性。配套的NUPunkt和CharBoundary库可直接处理该数据集格式，实现从研究到应用的快速转化。

背景与挑战

背景概述

ALEA Legal Benchmark: Sentence and Paragraph Boundaries数据集由ALEA Institute于2025年推出，旨在解决法律文本中句子和段落边界检测的独特挑战。该数据集基于KL3M数据项目构建，通过人工与半自动标注相结合的方式，为法律文档提供了高质量的边界标注。法律文本因其特有的引用格式、专业缩写和复杂句式，往往使通用自然语言处理工具失效。该数据集的创建显著提升了法律领域检索增强生成（RAG）系统的性能，其中精确的边界检测对于保持概念间的逻辑关联至关重要。相关研究成果已发表在arXiv预印本平台，并开发了NUPunkt和CharBoundary等专用工具库。

当前挑战

该数据集面临的核心挑战主要体现在两个方面：领域问题方面，法律文本中大量存在的专业引用（如案例法引用'159 F.2d 169'）、特殊缩写（如'U.S.C.'）以及复杂句式结构，导致传统边界检测方法准确率显著下降；构建过程方面，为确保标注质量，研发团队采用了生成-判断-校正的三阶段流程，需要平衡LLM自动标注效率与人工校验精度，同时严格保持原始文本的字符级保真度。此外，法律文本特有的格式规范（如编号列表、脚注引用）也增加了边界标注的复杂性，需要通过多模型协同验证来确保标注一致性。

常用场景

经典使用场景

在法律自然语言处理领域，ALEA Legal Benchmark数据集被广泛用于训练和评估法律文本中的句子和段落边界检测模型。由于法律文本中特有的引用格式、专业缩写和复杂句式结构，传统的自然语言处理工具往往难以准确识别边界。该数据集通过精确标注的句子和段落边界，为研究人员提供了标准化的评估基准，特别是在处理法律判例、合同条款等专业文本时展现出显著优势。

实际应用

在法律实务中，该数据集支持了多项实际应用的开发，包括法律文档自动分段系统、合同条款提取工具以及法律检索增强生成(RAG)系统。特别是在大规模法律文献处理场景下，基于该数据集训练的模型能够准确识别文本结构，为法律专业人士提供更精准的信息检索服务，大幅提升了法律研究的效率。

衍生相关工作

该数据集直接催生了NUPunkt和CharBoundary等专业法律文本处理工具的开发，这些工具在边界检测精度和处理效率方面均达到行业领先水平。相关研究成果发表在多个顶级学术会议上，并形成了以法律文本处理为核心的研究方向，推动了法律人工智能领域的整体发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集