Corpus der Entscheidungen des Bundesgerichtshofs (CE-BGH)
收藏github2024-03-12 更新2024-05-31 收录
下载链接:
https://github.com/SeanFobbe/ce-bgh
下载链接
链接失效反馈官方服务:
资源简介:
CE-BGH是一个尽可能完整的联邦最高法院公布的判决集合。该数据集使用联邦最高法院的官方判决数据库作为其数据源,并对其进行全面分析。
CE-BGH is a comprehensive collection of judgments published by the Federal Supreme Court. This dataset utilizes the official judgment database of the Federal Supreme Court as its data source and conducts a thorough analysis of it.
创建时间:
2021-06-06
原始信息汇总
数据集概述
数据集名称: Corpus der Entscheidungen des Bundesgerichtshofs (CE-BGH)
数据集描述: CE-BGH是一个尽可能完整的德国联邦法院判决集,数据来源于联邦法院的官方判决数据库,并对其进行了全面分析。
数据集内容:
- 完整数据集(CSV格式,包含额外元数据)
- 纯元数据(CSV格式,不包含判决内容)
- 所有判决(TXT格式)
- 所有判决(PDF格式)
- 仅摘要判决(PDF格式)
- 仅命名判决(PDF格式)
- 占位符文档(PDF格式)
- 所有分析结果(表格为CSV,图表为PDF和PNG)
数据集发布:
- 最新、功能齐全且可引用的数据集版本:https://doi.org/10.5281/zenodo.3942742
数据集存储与发布:
- 数据集及其所有版本永久免费且无版权地在Zenodo(CERN的科学档案)上发布,每个版本都有独立的长期稳定(持久)数字对象标识符(DOI)。
数据集生成
输出存储:
- 所有结果存储在
output文件夹中。 - 为所有ZIP档案计算加密签名(SHA2-256和SHA3-512),并存储在CSV文件中。
数据集使用
系统要求:
- Docker
- Docker Compose
- 8 GB硬盘空间
- 推荐使用多核CPU(8核/16线程用于参考数据集)
自动化与配置:
- 脚本默认自动使用系统上的最大核心/线程数。
- 核心数可在配置文件中调整,设置为1时禁用并行处理。
数据集编译
步骤:
- 将源代码复制到空文件夹中。
- 使用
docker-build-image.sh创建Docker镜像。 - 使用
docker-run-project.sh编译数据集。
结果存储:
- 数据集和所有其他结果存储在
output/文件夹中。
数据集结构
项目结构:
- 主要组成部分包括数据、配置文件、Docker相关脚本、功能函数、管道定义等。
- 编译过程中创建的文件夹包括
files/,temp/,analysis和output/。 - 最终结果存储在
output/中。
搜集汇总
数据集介绍

构建方式
Corpus der Entscheidungen des Bundesgerichtshofs (CE-BGH)数据集通过自动化脚本从德国联邦最高法院的官方判决数据库中提取数据构建而成。该数据集涵盖了尽可能完整的最高法院判决,并通过Zenodo平台以CSV、TXT、PDF等多种格式公开发布。每个版本均配有持久的数字对象标识符(DOI),确保数据的长期可访问性和引用性。
特点
CE-BGH数据集以其全面性和多样性著称,不仅包含完整的判决文本,还提供了丰富的元数据、引文网络以及分析结果。数据集以多种格式呈现,包括CSV、TXT、PDF等,满足不同研究需求。此外,数据集还提供了详细的加密签名文件,确保数据的完整性和安全性。其结构化的数据格式和丰富的元信息为法律文本分析、司法决策研究等领域提供了宝贵的资源。
使用方法
使用CE-BGH数据集时,用户需首先克隆GitHub仓库至本地,并通过Docker构建运行环境。随后,通过执行脚本编译数据集,所有生成的文件将存储在`output`文件夹中。用户可根据需求选择不同格式的数据文件,如CSV、TXT或PDF。此外,数据集还支持通过R脚本进行可视化分析,帮助用户更直观地理解数据结构和内容。整个过程高度自动化,用户只需按照README文件中的步骤操作即可轻松获取并使用数据集。
背景与挑战
背景概述
Corpus der Entscheidungen des Bundesgerichtshofs (CE-BGH) 是由德国联邦法院发布的判决案例的全面数据集,旨在为法律研究和分析提供详尽的资源。该数据集由Seán Fobbe主导开发,依托于德国联邦法院的官方判决数据库,涵盖了从该数据库提取的所有公开判决。自2020年首次发布以来,CE-BGH通过Zenodo平台免费向公众开放,确保了数据的长期可访问性和版权自由。该数据集的核心研究问题在于如何系统化地整理和分析大量法律文本,以支持法律学者、研究人员和从业者在法律推理、案例分析和法律文本挖掘等领域的研究。CE-BGH的发布不仅为法律文本的数字化处理提供了重要工具,还推动了法律信息学的发展。
当前挑战
CE-BGH数据集在构建和应用过程中面临多重挑战。首先,法律文本的复杂性和多样性使得数据清洗和标准化成为一项艰巨任务,尤其是在处理不同格式的判决文本时。其次,数据集需要确保判决的完整性和准确性,以避免在后续分析中引入偏差。此外,构建大规模的法律文本数据集还涉及到隐私和版权问题,如何在公开数据的同时保护个人隐私和遵守版权法规是一个关键问题。在应用层面,CE-BGH数据集的使用者需要具备一定的法律知识和文本分析技能,以充分利用该数据集进行深入的法律研究。这些挑战不仅影响了数据集的构建过程,也对数据集的广泛应用提出了更高的要求。
常用场景
经典使用场景
Corpus der Entscheidungen des Bundesgerichtshofs (CE-BGH) 数据集在法学研究中具有重要地位,主要用于分析德国联邦最高法院的判决文书。研究者通过该数据集能够深入探讨法律判决的模式、法律条文的解释以及司法决策的逻辑。该数据集为法学学者提供了一个全面的法律文本库,支持从文本挖掘到法律推理的多种研究方法。
解决学术问题
CE-BGH 数据集解决了法学研究中判决文书获取和分析的难题。通过提供完整的判决文本和丰富的元数据,研究者能够系统地研究法律条文的适用性、判决的一致性和司法先例的影响。该数据集为法律文本分析、司法决策模型构建以及法律知识图谱的生成提供了坚实的基础,极大地推动了法学研究的深度和广度。
衍生相关工作
基于 CE-BGH 数据集,研究者们开展了多项经典工作,包括法律文本的自动分类、判决预测模型的构建以及法律知识图谱的生成。这些研究不仅提升了法律文本分析的自动化水平,还为司法决策提供了数据驱动的支持。此外,该数据集还促进了跨学科研究,如法律与人工智能的结合,推动了法律科技的创新与发展。
以上内容由遇见数据集搜集并总结生成



