five

Corpus der amtlichen Entscheidungssamlung des Bundesverfassungsgerichts (C-BVerfGE)|法律判决数据集|语料库数据集

收藏
github2024-03-12 更新2024-05-31 收录
法律判决
语料库
下载链接:
https://github.com/SeanFobbe/c-bverfge
下载链接
链接失效反馈
资源简介:
该数据集包含了联邦宪法法院官方判决集合的所有已发布判决,并将其编译成一个丰富的人机可读语料库。数据集在Zenodo上永久免费且无版权地发布,每版都配有长期稳定的数字对象标识符(DOI)。

This dataset encompasses all published rulings from the official collection of the Federal Constitutional Court, compiled into a comprehensive, human- and machine-readable corpus. The dataset is permanently and freely available on Zenodo without copyright restrictions, with each version accompanied by a long-term stable Digital Object Identifier (DOI).
创建时间:
2021-08-26
原始信息汇总

数据集概述

数据集名称

  • Corpus der amtlichen Entscheidungssamlung des Bundesverfassungsgerichts (C-BVerfGE)

数据集描述

  • 该数据集包含从www.bundesverfassungsgericht.de下载的所有官方裁决集合的裁决,并将其编译成一个丰富的人类和机器可读的语料库。
  • 所有使用此脚本创建的数据集永久免费且无版权地在Zenodo(CERN的科学档案)上发布,每个版本都附有一个长期稳定的数字对象标识符(DOI)。

数据集版本

数据集输出格式

  • 完整的CSV格式数据集
  • 纯元数据CSV格式(无裁决文本)
  • (可选)所有文本的标记化形式,带语言学注释的CSV格式
  • 完整的TXT格式数据集(元数据范围减少)
  • 完整的PDF格式数据集(元数据范围减少)
  • 所有分析结果(表格为CSV,图表为PDF和PNG)
  • 源代码和所有其他源数据

数据集存储

  • 所有结果存储在output文件夹中。
  • 为所有ZIP存档计算加密签名(SHA2-256和SHA3-512),并存储在CSV文件中。

系统要求

  • Docker
  • Docker Compose
  • 500 MB硬盘空间
  • 推荐使用多核CPU(8核/16线程用于参考数据集)

数据集编译步骤

  1. 将源代码复制到空文件夹中。
  2. 使用Docker构建镜像。
  3. 编译完整数据集。

数据集结构

  • 主要项目组件包括数据集创建脚本、代码本创建脚本、配置文件、源代码等。
  • 最终结果存储在output/文件夹中。
AI搜集汇总
数据集介绍
main_image_url
构建方式
C-BVerfGE数据集的构建过程基于德国联邦宪法法院官方网站发布的官方判决汇编。通过自动化脚本,所有判决被下载并编译成一个丰富的人机可读语料库。该脚本生成多种格式的数据集,包括CSV、TXT和PDF,并附带详细的元数据和语言学注释。所有数据集均通过Zenodo平台发布,确保其长期可用性和版权自由。
特点
C-BVerfGE数据集的特点在于其全面性和多样性。它不仅包含了完整的判决文本,还提供了丰富的元数据,如案件编号、判决日期和法院部门等。此外,数据集还提供了语言学注释和分词版本,便于进行深入的文本分析。所有数据均经过加密签名,确保其完整性和安全性。
使用方法
使用C-BVerfGE数据集时,首先需要克隆GitHub仓库中的源代码,并确保在空文件夹中进行操作。通过Docker构建镜像后,用户可以运行脚本编译数据集。编译完成后,所有结果文件将存储在`output`文件夹中,用户可以根据需要选择CSV、TXT或PDF格式进行进一步分析。整个流程支持多核并行处理,以提高效率。
背景与挑战
背景概述
Corpus der amtlichen Entscheidungssamlung des Bundesverfassungsgerichts (C-BVerfGE) 数据集由Seán Fobbe及其团队创建,旨在为德国联邦宪法法院的官方判决汇编提供一个全面且易于访问的语料库。该数据集首次发布于2020年,通过自动化脚本从德国联邦宪法法院官方网站下载并整理所有公开的判决文本,形成一个结构化的、机器可读的语料库。该数据集不仅为法律文本分析提供了基础,还推动了法律信息学、自然语言处理等领域的研究。其发布在CERN的科学档案平台Zenodo上,确保了数据的长期可用性和可追溯性。
当前挑战
C-BVerfGE数据集在构建过程中面临多重挑战。首先,法律文本的复杂性和多样性使得自动化处理变得困难,尤其是在确保文本的完整性和准确性方面。其次,判决文本的格式和结构在不同时期和案件中可能存在显著差异,增加了数据清洗和标准化的难度。此外,数据集需要处理大量的元数据,如案件编号、判决日期等,这些信息的提取和整合需要高度的精确性。最后,数据集的构建依赖于多核CPU的高效计算资源,以确保大规模文本处理的可行性和效率。这些挑战共同构成了该数据集在技术实现和实际应用中的主要障碍。
常用场景
经典使用场景
C-BVerfGE数据集广泛应用于法律文本分析领域,特别是在德国联邦宪法法院的判决文本研究中。该数据集为研究人员提供了丰富的判决文本和元数据,支持从法律语言学、法律信息检索到法律文本挖掘等多个研究方向。通过该数据集,研究者能够深入分析判决文本的语言特征、法律推理模式以及判决结果的预测模型。
实际应用
在实际应用中,C-BVerfGE数据集被广泛用于法律信息系统的开发、法律文本的自动化处理以及法律决策支持系统的构建。该数据集为法律从业者提供了丰富的判决文本资源,支持法律检索、法律文本分析和法律决策的自动化处理。通过该数据集,法律从业者能够更高效地检索和分析相关法律文本,提升法律决策的准确性和效率。
衍生相关工作
C-BVerfGE数据集衍生了许多相关的研究工作,包括法律文本的语义分析、法律信息检索系统的开发以及法律文本挖掘算法的研究。该数据集为研究者提供了标准化的法律文本资源,支持大规模的法律文本分析和自然语言处理任务。通过该数据集,研究者能够开发出更准确和高效的法律文本分析工具,推动法律信息检索和法律文本分析技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录

中国地质调查局: 全国1∶200 000区域水文地质图空间数据库

全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源,在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上,建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息,全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层,内容包括:地理要素(交通层、水系层、行政区划层等),基础地质要素(地层分区层、断裂构造层),水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层,地下水水质层、水文地质特征层、地下水利用规划层),专题要素(综合水文地质柱状图,水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储,形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果,是地质领域全国性最重要的基础信息资源之一。

DataCite Commons 收录