five

Corpus des Deutschen Bundesrechts (C-DBR)|法律数据集数据集|德国联邦法律数据集

收藏
github2024-04-03 更新2024-05-31 收录
法律数据集
德国联邦法律
下载链接:
https://github.com/SeanFobbe/c-dbr
下载链接
链接失效反馈
资源简介:
C-DBR是一个尽可能完整的德国联邦法律综合数据集,包含所有联邦级别的法律和法规的合并版本。该数据集的数据来源是联邦司法部的官方互联网服务www.gesetze-im-internet.de,并对其进行了全面分析。

C-DBR is a comprehensive dataset of German federal laws, encompassing consolidated versions of all federal-level statutes and regulations. The data is sourced from the official internet service of the Federal Ministry of Justice and Consumer Protection, www.gesetze-im-internet.de, and has been thoroughly analyzed.
创建时间:
2021-08-26
原始信息汇总

数据集概述

数据集名称

Corpus des Deutschen Bundesrechts (C-DBR)

数据集描述

C-DBR是一个尽可能完整的德国联邦法律和法规的汇编,数据来源于联邦司法部的官方网站www.gesetze-im-internet.de,并对其进行了全面分析。

数据集内容

数据集包含以下格式的文件:

  1. CSV格式的完整数据集,分为单个法规(仅包含已发布法规文本的法律行为)
  2. CSV格式的所有单个法规的元数据(与1相同,但不含文本变量)
  3. CSV格式的完整数据集,分为法律行为(仅包含已发布法规文本的法律行为)
  4. CSV格式的所有法律行为的元数据(与3相同,但不含文本变量)
  5. CSV格式的所有已发布法律行为的元数据(不论法规文本是否已发布)
  6. XML格式的完整数据集,分为法律行为(来自GII的原始数据)
  7. XML文件的附件,以各自的原始格式(来自GII的原始数据)
  8. TXT格式的所有法律行为,分为法律行为(显著减少的元数据量)
  9. PDF格式的所有法律文本,分为法律行为(显著减少的元数据量)
  10. EPUB格式的所有法律文本,分为法律(显著减少的元数据量)
  11. 分析结果(表格为CSV,图表为PDF和PNG)
  12. 网络结构(邻接矩阵,边列表,GraphML,网络图)用于所有法律行为(实验性!)

数据集发布

所有数据集永久免费且无版权地在Zenodo上发布,每个版本都有独立的长期稳定(持久)的数字对象标识符(DOI)。

最新版本

AI搜集汇总
数据集介绍
main_image_url
构建方式
Corpus des Deutschen Bundesrechts (C-DBR) 数据集通过自动化脚本从德国联邦司法部的官方网站 www.gesetze-im-internet.de 中提取并整合所有联邦层面的法律和法规文本。该脚本全面解析并处理这些数据,生成多种格式的输出文件,包括CSV、XML、TXT、PDF和EPUB等。所有生成的数据集均以ZIP压缩文件的形式发布,并附带加密签名以确保数据的完整性和安全性。数据集通过Zenodo平台永久免费发布,每个版本均配有独立的数字对象标识符(DOI),便于长期引用和访问。
使用方法
使用C-DBR数据集时,用户首先需要克隆GitHub仓库中的源代码,并在本地环境中准备一个空文件夹。随后,通过Docker构建镜像并运行项目脚本,即可自动生成数据集。生成的数据集和所有相关结果将存储在`output`文件夹中。用户可以通过提供的R脚本进行数据清理和重新编译。此外,数据集还支持通过R包`targets`进行管道可视化,帮助用户更好地理解数据处理流程。对于高级用户,还可以通过提供的命令行工具进行错误排查和性能优化。
背景与挑战
背景概述
《Corpus des Deutschen Bundesrechts (C-DBR)》是一个全面收集德国联邦层面所有法律和法规的整合版本的语料库。该数据集由Seán Fobbe主导开发,主要依托德国联邦司法部官方网站www.gesetze-im-internet.de的数据源,旨在为法律文本分析、自然语言处理及法律信息检索等领域提供高质量的数据支持。自2020年发布以来,C-DBR通过Zenodo平台持续更新,并采用持久性数字对象标识符(DOI)确保数据的长期可访问性和引用性。该数据集不仅为法学研究提供了丰富的文本资源,还推动了法律文本的数字化和结构化处理,对法律信息学及相关领域的研究具有重要的推动作用。
当前挑战
C-DBR数据集在构建和应用过程中面临多重挑战。首先,法律文本的复杂性和多样性使得数据清洗和结构化处理变得尤为困难,尤其是在处理多格式文本(如PDF、XML、TXT等)时,如何确保数据的一致性和准确性是一个关键问题。其次,法律文本的更新频率较高,数据集需要定期同步和整合最新版本的法律法规,这对数据维护提出了较高的要求。此外,法律文本的语义分析和信息提取任务具有较高的技术门槛,尤其是在处理多语言、多领域的法律文本时,如何提升自然语言处理模型的性能仍是一个亟待解决的难题。最后,数据集的构建过程中还需考虑版权和隐私问题,确保数据的合法性和合规性。
常用场景
经典使用场景
Corpus des Deutschen Bundesrechts (C-DBR) 数据集广泛应用于法律文本分析领域,特别是在德国联邦法律的文本挖掘和自然语言处理研究中。研究者利用该数据集进行法律文本的结构化分析、语义解析以及法律条文的自动化分类。通过其提供的多种格式(如CSV、XML、PDF等),研究者能够灵活地进行数据预处理和深入分析,从而揭示法律文本中的复杂模式和关系。
解决学术问题
C-DBR 数据集解决了法律文本研究中数据获取和标准化处理的难题。通过整合德国联邦层面的所有法律和法规,该数据集为研究者提供了一个全面且权威的法律文本资源。其结构化的数据格式和丰富的元信息使得研究者能够高效地进行法律文本的语义分析、法律条文的关联性研究以及法律知识的自动化提取,从而推动了法律信息学和法律人工智能领域的发展。
实际应用
在实际应用中,C-DBR 数据集被广泛用于法律信息系统的开发、法律文本的自动化翻译以及法律咨询服务的智能化支持。例如,法律科技公司利用该数据集构建智能法律搜索引擎,帮助用户快速定位相关法律条文。此外,政府机构和法律研究机构也利用该数据集进行法律文本的自动化归档和知识管理,从而提高法律服务的效率和准确性。
数据集最近研究
最新研究方向
在法学与计算语言学的交叉领域,Corpus des Deutschen Bundesrechts (C-DBR) 数据集为研究者提供了德国联邦法律的全面文本资源。该数据集的最新研究方向聚焦于利用自然语言处理技术对法律文本进行深度分析,包括法律条文的语义解析、法律文本的自动摘要生成以及法律网络的构建与可视化。这些研究不仅推动了法律文本的智能化处理,还为法律信息检索、法律知识图谱构建等应用提供了重要支持。此外,随着法律数据的开放共享趋势,C-DBR 数据集在促进法律透明度和公众参与方面也发挥了积极作用,成为法学研究与政策制定的重要参考资源。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录