Corpus der amtlichen Entscheidungssamlung des Bundesverfassungsgerichts (C-BVerfGE)
收藏github2024-03-12 更新2024-05-31 收录
下载链接:
https://github.com/SeanFobbe/c-bverfge
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了联邦宪法法院官方判决集合的所有已发布判决,并将其编译成一个丰富的人机可读语料库。数据集在Zenodo上永久免费且无版权地发布,每版都配有长期稳定的数字对象标识符(DOI)。
This dataset encompasses all published rulings from the official collection of the Federal Constitutional Court, compiled into a comprehensive, human- and machine-readable corpus. The dataset is permanently and freely available on Zenodo without copyright restrictions, with each version accompanied by a long-term stable Digital Object Identifier (DOI).
创建时间:
2021-08-26
原始信息汇总
数据集概述
数据集名称
- Corpus der amtlichen Entscheidungssamlung des Bundesverfassungsgerichts (C-BVerfGE)
数据集描述
- 该数据集包含从www.bundesverfassungsgericht.de下载的所有官方裁决集合的裁决,并将其编译成一个丰富的人类和机器可读的语料库。
- 所有使用此脚本创建的数据集永久免费且无版权地在Zenodo(CERN的科学档案)上发布,每个版本都附有一个长期稳定的数字对象标识符(DOI)。
数据集版本
- 最新、功能齐全且可引用的数据集版本:https://doi.org/10.5281/zenodo.3831111
数据集输出格式
- 完整的CSV格式数据集
- 纯元数据CSV格式(无裁决文本)
- (可选)所有文本的标记化形式,带语言学注释的CSV格式
- 完整的TXT格式数据集(元数据范围减少)
- 完整的PDF格式数据集(元数据范围减少)
- 所有分析结果(表格为CSV,图表为PDF和PNG)
- 源代码和所有其他源数据
数据集存储
- 所有结果存储在
output文件夹中。 - 为所有ZIP存档计算加密签名(SHA2-256和SHA3-512),并存储在CSV文件中。
系统要求
- Docker
- Docker Compose
- 500 MB硬盘空间
- 推荐使用多核CPU(8核/16线程用于参考数据集)
数据集编译步骤
- 将源代码复制到空文件夹中。
- 使用Docker构建镜像。
- 编译完整数据集。
数据集结构
- 主要项目组件包括数据集创建脚本、代码本创建脚本、配置文件、源代码等。
- 最终结果存储在
output/文件夹中。
搜集汇总
数据集介绍

构建方式
C-BVerfGE数据集的构建过程基于德国联邦宪法法院官方网站发布的官方判决汇编。通过自动化脚本,所有判决被下载并编译成一个丰富的人机可读语料库。该脚本生成多种格式的数据集,包括CSV、TXT和PDF,并附带详细的元数据和语言学注释。所有数据集均通过Zenodo平台发布,确保其长期可用性和版权自由。
特点
C-BVerfGE数据集的特点在于其全面性和多样性。它不仅包含了完整的判决文本,还提供了丰富的元数据,如案件编号、判决日期和法院部门等。此外,数据集还提供了语言学注释和分词版本,便于进行深入的文本分析。所有数据均经过加密签名,确保其完整性和安全性。
使用方法
使用C-BVerfGE数据集时,首先需要克隆GitHub仓库中的源代码,并确保在空文件夹中进行操作。通过Docker构建镜像后,用户可以运行脚本编译数据集。编译完成后,所有结果文件将存储在`output`文件夹中,用户可以根据需要选择CSV、TXT或PDF格式进行进一步分析。整个流程支持多核并行处理,以提高效率。
背景与挑战
背景概述
Corpus der amtlichen Entscheidungssamlung des Bundesverfassungsgerichts (C-BVerfGE) 数据集由Seán Fobbe及其团队创建,旨在为德国联邦宪法法院的官方判决汇编提供一个全面且易于访问的语料库。该数据集首次发布于2020年,通过自动化脚本从德国联邦宪法法院官方网站下载并整理所有公开的判决文本,形成一个结构化的、机器可读的语料库。该数据集不仅为法律文本分析提供了基础,还推动了法律信息学、自然语言处理等领域的研究。其发布在CERN的科学档案平台Zenodo上,确保了数据的长期可用性和可追溯性。
当前挑战
C-BVerfGE数据集在构建过程中面临多重挑战。首先,法律文本的复杂性和多样性使得自动化处理变得困难,尤其是在确保文本的完整性和准确性方面。其次,判决文本的格式和结构在不同时期和案件中可能存在显著差异,增加了数据清洗和标准化的难度。此外,数据集需要处理大量的元数据,如案件编号、判决日期等,这些信息的提取和整合需要高度的精确性。最后,数据集的构建依赖于多核CPU的高效计算资源,以确保大规模文本处理的可行性和效率。这些挑战共同构成了该数据集在技术实现和实际应用中的主要障碍。
常用场景
经典使用场景
C-BVerfGE数据集广泛应用于法律文本分析领域,特别是在德国联邦宪法法院的判决文本研究中。该数据集为研究人员提供了丰富的判决文本和元数据,支持从法律语言学、法律信息检索到法律文本挖掘等多个研究方向。通过该数据集,研究者能够深入分析判决文本的语言特征、法律推理模式以及判决结果的预测模型。
实际应用
在实际应用中,C-BVerfGE数据集被广泛用于法律信息系统的开发、法律文本的自动化处理以及法律决策支持系统的构建。该数据集为法律从业者提供了丰富的判决文本资源,支持法律检索、法律文本分析和法律决策的自动化处理。通过该数据集,法律从业者能够更高效地检索和分析相关法律文本,提升法律决策的准确性和效率。
衍生相关工作
C-BVerfGE数据集衍生了许多相关的研究工作,包括法律文本的语义分析、法律信息检索系统的开发以及法律文本挖掘算法的研究。该数据集为研究者提供了标准化的法律文本资源,支持大规模的法律文本分析和自然语言处理任务。通过该数据集,研究者能够开发出更准确和高效的法律文本分析工具,推动法律信息检索和法律文本分析技术的发展。
以上内容由遇见数据集搜集并总结生成



