Corpus des Deutschen Bundesrechts (C-DBR)

github2024-04-03 更新2024-05-31 收录

下载链接：

https://github.com/SeanFobbe/c-dbr

下载链接

链接失效反馈

资源简介：

C-DBR是一个尽可能完整的德国联邦法律综合数据集，包含所有联邦级别的法律和法规的合并版本。该数据集的数据来源是联邦司法部的官方互联网服务www.gesetze-im-internet.de，并对其进行了全面分析。

C-DBR is a comprehensive dataset of German federal laws, encompassing consolidated versions of all federal-level statutes and regulations. The data is sourced from the official internet service of the Federal Ministry of Justice and Consumer Protection, www.gesetze-im-internet.de, and has been thoroughly analyzed.

创建时间：

2021-08-26

原始信息汇总

数据集概述

数据集名称

Corpus des Deutschen Bundesrechts (C-DBR)

数据集描述

C-DBR是一个尽可能完整的德国联邦法律和法规的汇编，数据来源于联邦司法部的官方网站www.gesetze-im-internet.de，并对其进行了全面分析。

数据集内容

数据集包含以下格式的文件：

CSV格式的完整数据集，分为单个法规（仅包含已发布法规文本的法律行为）
CSV格式的所有单个法规的元数据（与1相同，但不含文本变量）
CSV格式的完整数据集，分为法律行为（仅包含已发布法规文本的法律行为）
CSV格式的所有法律行为的元数据（与3相同，但不含文本变量）
CSV格式的所有已发布法律行为的元数据（不论法规文本是否已发布）
XML格式的完整数据集，分为法律行为（来自GII的原始数据）
XML文件的附件，以各自的原始格式（来自GII的原始数据）
TXT格式的所有法律行为，分为法律行为（显著减少的元数据量）
PDF格式的所有法律文本，分为法律行为（显著减少的元数据量）
EPUB格式的所有法律文本，分为法律（显著减少的元数据量）
分析结果（表格为CSV，图表为PDF和PNG）
网络结构（邻接矩阵，边列表，GraphML，网络图）用于所有法律行为（实验性！）

数据集发布

所有数据集永久免费且无版权地在Zenodo上发布，每个版本都有独立的长期稳定（持久）的数字对象标识符（DOI）。

最新版本

数据集：10.5281/zenodo.3832111
源代码：10.5281/zenodo.4072934

AI搜集汇总

数据集介绍

构建方式

Corpus des Deutschen Bundesrechts (C-DBR) 数据集通过自动化脚本从德国联邦司法部的官方网站 www.gesetze-im-internet.de 中提取并整合所有联邦层面的法律和法规文本。该脚本全面解析并处理这些数据，生成多种格式的输出文件，包括CSV、XML、TXT、PDF和EPUB等。所有生成的数据集均以ZIP压缩文件的形式发布，并附带加密签名以确保数据的完整性和安全性。数据集通过Zenodo平台永久免费发布，每个版本均配有独立的数字对象标识符（DOI），便于长期引用和访问。

使用方法

使用C-DBR数据集时，用户首先需要克隆GitHub仓库中的源代码，并在本地环境中准备一个空文件夹。随后，通过Docker构建镜像并运行项目脚本，即可自动生成数据集。生成的数据集和所有相关结果将存储在`output`文件夹中。用户可以通过提供的R脚本进行数据清理和重新编译。此外，数据集还支持通过R包`targets`进行管道可视化，帮助用户更好地理解数据处理流程。对于高级用户，还可以通过提供的命令行工具进行错误排查和性能优化。

背景与挑战

背景概述

《Corpus des Deutschen Bundesrechts (C-DBR)》是一个全面收集德国联邦层面所有法律和法规的整合版本的语料库。该数据集由Seán Fobbe主导开发，主要依托德国联邦司法部官方网站www.gesetze-im-internet.de的数据源，旨在为法律文本分析、自然语言处理及法律信息检索等领域提供高质量的数据支持。自2020年发布以来，C-DBR通过Zenodo平台持续更新，并采用持久性数字对象标识符（DOI）确保数据的长期可访问性和引用性。该数据集不仅为法学研究提供了丰富的文本资源，还推动了法律文本的数字化和结构化处理，对法律信息学及相关领域的研究具有重要的推动作用。

当前挑战

C-DBR数据集在构建和应用过程中面临多重挑战。首先，法律文本的复杂性和多样性使得数据清洗和结构化处理变得尤为困难，尤其是在处理多格式文本（如PDF、XML、TXT等）时，如何确保数据的一致性和准确性是一个关键问题。其次，法律文本的更新频率较高，数据集需要定期同步和整合最新版本的法律法规，这对数据维护提出了较高的要求。此外，法律文本的语义分析和信息提取任务具有较高的技术门槛，尤其是在处理多语言、多领域的法律文本时，如何提升自然语言处理模型的性能仍是一个亟待解决的难题。最后，数据集的构建过程中还需考虑版权和隐私问题，确保数据的合法性和合规性。

常用场景

经典使用场景

Corpus des Deutschen Bundesrechts (C-DBR) 数据集广泛应用于法律文本分析领域，特别是在德国联邦法律的文本挖掘和自然语言处理研究中。研究者利用该数据集进行法律文本的结构化分析、语义解析以及法律条文的自动化分类。通过其提供的多种格式（如CSV、XML、PDF等），研究者能够灵活地进行数据预处理和深入分析，从而揭示法律文本中的复杂模式和关系。

解决学术问题

C-DBR 数据集解决了法律文本研究中数据获取和标准化处理的难题。通过整合德国联邦层面的所有法律和法规，该数据集为研究者提供了一个全面且权威的法律文本资源。其结构化的数据格式和丰富的元信息使得研究者能够高效地进行法律文本的语义分析、法律条文的关联性研究以及法律知识的自动化提取，从而推动了法律信息学和法律人工智能领域的发展。

实际应用

在实际应用中，C-DBR 数据集被广泛用于法律信息系统的开发、法律文本的自动化翻译以及法律咨询服务的智能化支持。例如，法律科技公司利用该数据集构建智能法律搜索引擎，帮助用户快速定位相关法律条文。此外，政府机构和法律研究机构也利用该数据集进行法律文本的自动化归档和知识管理，从而提高法律服务的效率和准确性。

数据集最近研究