AgentPublic/dole

Name: AgentPublic/dole
Creator: AgentPublic
Published: 2026-05-08 19:05:18
License: 暂无描述

Hugging Face2026-05-08 更新2025-08-09 收录

下载链接：

https://hf-mirror.com/datasets/AgentPublic/dole

下载链接

链接失效反馈

官方服务：

资源简介：

法国立法档案数据集（DOLE）提供了一个语义就绪、分块和嵌入的版本，包含了自2002年第12届立法会议以来所有公布的法律、条例和立法提案。数据集经过标准化处理，包括元数据、文章块和说明部分的标准化，并以Parquet格式提供，包含标题、文本内容、嵌入向量等字段。

The French Legislative Dossiers Dataset (DOLE) provides a semantic-ready, chunked, and embedded version of the Dossiers Législatifs, including all laws promulgated since the XIIth legislature (June 2002), ordinances, and legislative proposals. The dataset has been standardized, including metadata, article blocks, and explanatory sections, and is available in Parquet format with fields such as title, text content, and embedding vectors.

提供机构：

AgentPublic

搜集汇总

数据集介绍

构建方式

在法国立法数据开放获取的背景下，DOLE数据集通过系统化流程构建而成。原始数据源自法国政府DILA开放数据仓库，涵盖自2002年6月第十二届立法机构以来颁布的所有法律、法令及正在审议的立法提案。数据处理采用标准化解析方法，将官方XML结构中的元数据、条款块和解释性章节归一化为统一模式。针对不同内容类型，如解释性备忘录、档案内容及法律条款，应用特定规则进行提取与重组，并生成唯一标识符、索引及哈希值以确保数据完整性。文本内容经过精心分块，结合标题与正文以优化语义粒度，为后续向量化处理奠定基础。

特点

DOLE数据集展现出多维度特征，其核心在于为语义检索与生成式增强检索系统提供即用型向量化表示。数据集采用BAAI/bge-m3模型对分块文本进行嵌入，将高维语义信息编码为稠密向量，存储于特定列中。数据结构设计严谨，包含丰富元数据字段，如文档类别、创建日期、立法机构表述等，同时保留了条款编号、标题及摘要等细节信息。分块策略兼顾法律文本的结构化特性，确保每个语义单元既独立又连贯，便于高效检索与分析。数据集以Parquet格式发布，兼顾存储效率与读取性能，支持大规模法律研究与应用开发。

使用方法

利用DOLE数据集进行法律语义分析时，用户可通过Hugging Face的datasets库或本地Parquet文件加载数据。嵌入向量以字符串形式存储，需使用JSON解析转换为浮点数列表或NumPy数组，方可融入向量数据库或相似性计算流程。数据集适用于构建检索增强生成系统，用户可依据分块文本及其对应向量，实现精准的法律条款检索与上下文关联分析。若现有分块方式不满足特定需求，项目提供的教程指导用户如何重构原始未分块数据，或集成至自定义RAG管道。通过结合开源代码库，研究者能够进一步调整数据处理流程，以适应多样化的法律智能应用场景。

背景与挑战

背景概述

法国立法档案数据集（DOLE）由法国政府机构于2020年代初期创建，旨在系统化整理并开放自2002年6月第十二届立法机构以来颁布的所有法律、法令及立法提案。该数据集由法国国家数字与法律信息局（DILA）及公共数据机构AgentPublic联合构建，核心研究问题聚焦于如何将复杂的立法文本转化为结构化、语义化的数字资源，以支持法律信息检索与智能分析。作为法国首个大规模、语义就绪的立法数据集，DOLE不仅推动了法律领域的开放数据运动，也为法学研究、政策分析及人工智能在法律文本处理中的应用提供了关键基础设施，显著提升了法律文档的可访问性与计算分析潜力。

当前挑战

DOLE数据集旨在解决法律文本语义检索与知识挖掘的领域挑战，其核心问题在于如何从非结构化的立法档案中提取精准、连贯的语义信息，以支持检索增强生成与法律研究系统。构建过程中的主要挑战包括：第一，原始XML数据的异构性与复杂性，要求设计精细的解析规则以统一元数据与文本内容；第二，法律条文固有的严谨结构需与嵌入模型适配，确保分块策略既能保留语义完整性，又避免信息割裂；第三，处理多类型内容（如条文、说明备忘录）时，需平衡自动化处理与人工校验，以保障数据质量与法律准确性。

常用场景

经典使用场景

在法国法律信息检索与智能分析领域，DOLE数据集凭借其语义就绪的向量化特征，为法律文本的深度挖掘提供了坚实基础。该数据集最经典的使用场景是构建基于语义搜索的法律信息系统，研究人员能够利用预生成的嵌入向量，快速定位与特定法律条款或立法提案相关的历史文档，从而高效梳理法律条文之间的关联性与演变脉络。这种应用不仅提升了法律文献检索的精确度，也为跨时期立法比较研究提供了技术支撑。

解决学术问题

DOLE数据集有效应对了法律计算研究中文本非结构化与语义鸿沟的挑战。通过将法律条文、立法提案及说明备忘录进行分块与向量化处理，该数据集使得机器学习模型能够理解法律文本的深层语义，进而支持法律主题建模、立法趋势分析及法律条文相似性计算等研究。其意义在于为计算法学提供了标准化、大规模的法语立法语料，推动了法律人工智能从规则驱动向语义理解范式的转变，对提升立法透明度与法律可及性具有深远影响。

衍生相关工作

围绕DOLE数据集，学术界与工业界衍生了一系列经典工作。例如，基于其嵌入向量开发的跨语言法律信息检索系统，实现了法语立法文本与其他语种法律库的关联；亦有研究利用该数据集训练法律文本分类模型，用于自动识别立法程序阶段或法案类型。此外，结合检索增强生成技术，多个开源项目构建了面向公众的立法问答机器人，这些工作共同推动了开放法律数据在智能服务中的创新应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集