Corpus der amtlichen Entscheidungssamlung des Bundesverfassungsgerichts (C-BVerfGE)|法律判决数据集|语料库数据集
收藏数据集概述
数据集名称
- Corpus der amtlichen Entscheidungssamlung des Bundesverfassungsgerichts (C-BVerfGE)
数据集描述
- 该数据集包含从www.bundesverfassungsgericht.de下载的所有官方裁决集合的裁决,并将其编译成一个丰富的人类和机器可读的语料库。
- 所有使用此脚本创建的数据集永久免费且无版权地在Zenodo(CERN的科学档案)上发布,每个版本都附有一个长期稳定的数字对象标识符(DOI)。
数据集版本
- 最新、功能齐全且可引用的数据集版本:https://doi.org/10.5281/zenodo.3831111
数据集输出格式
- 完整的CSV格式数据集
- 纯元数据CSV格式(无裁决文本)
- (可选)所有文本的标记化形式,带语言学注释的CSV格式
- 完整的TXT格式数据集(元数据范围减少)
- 完整的PDF格式数据集(元数据范围减少)
- 所有分析结果(表格为CSV,图表为PDF和PNG)
- 源代码和所有其他源数据
数据集存储
- 所有结果存储在
output
文件夹中。 - 为所有ZIP存档计算加密签名(SHA2-256和SHA3-512),并存储在CSV文件中。
系统要求
- Docker
- Docker Compose
- 500 MB硬盘空间
- 推荐使用多核CPU(8核/16线程用于参考数据集)
数据集编译步骤
- 将源代码复制到空文件夹中。
- 使用Docker构建镜像。
- 编译完整数据集。
数据集结构
- 主要项目组件包括数据集创建脚本、代码本创建脚本、配置文件、源代码等。
- 最终结果存储在
output/
文件夹中。

中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录
ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录
中国地质调查局: 全国1∶200 000区域水文地质图空间数据库
全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源,在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上,建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息,全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层,内容包括:地理要素(交通层、水系层、行政区划层等),基础地质要素(地层分区层、断裂构造层),水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层,地下水水质层、水文地质特征层、地下水利用规划层),专题要素(综合水文地质柱状图,水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储,形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果,是地质领域全国性最重要的基础信息资源之一。
DataCite Commons 收录