法律・判例関係のデータセット

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/japanese-law-analysis/data_set

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含法律和判例相关数据的数据集。数据集包括法令、废止法令、读音替换规则、简称定义规则以及判例集的信息。所有数据均通过特定的工具和方法生成，如listup_law、analysis_yomikae等，并遵循CC0许可公开。

This dataset encompasses data related to laws and legal precedents. It includes statutes, repealed statutes, phonetic substitution rules, abbreviation definition rules, and information on collections of legal precedents. All data are generated through specific tools and methods, such as listup_law and analysis_yomikae, and are publicly available under the CC0 license.

创建时间：

2023-01-15

原始信息汇总

数据集概述

数据集内容

法律相关数据

law/list.json
- 包含从e-gov法令検索下载的法令数据一览。
- 使用listup_law生成。
law/repeal_list.json
- 包含从e-gov法令検索/廃止法令一覧下载的废止法令数据一览。
- 使用listup_law生成。
law/yomikae.json
- 解析并抽取了读音替换的目标文言和替换后的文言。
- 使用analysis_yomikae解析和生成。
law/ryakusyou.json
- 解析并提取了简称和正式名称部分。
- 使用analysis_ryakusyou解析和生成。

判例相关数据

precedent/list.json
- 包含判例集的信息。
- 使用listup_precedent生成。
precedent/listup_info.json
- 包含precedent/list.json文件的生成范围等信息。
precedent/text_files/*.txt
- 包含precedent/list.json中列出的所有判例的文本文件。
- 使用pdf2txt_precedent生成。

数据集许可

根据著作权法第十三条的规定，法令和判决不产生著作权。因此，基于此生成的本数据集也不产生著作权。
以CC0许可公开。

搜集汇总

数据集介绍

构建方式

该法律判例数据集的构建方式主要依赖于自动化工具和公开的法律资源。具体而言，法令数据通过[e-gov法令検索](https://elaws.e-gov.go.jp/)获取，并使用[listup_law](https://github.com/japanese-law-analysis/listup_law)工具生成法令和废止法令的列表。此外，读音替换和简称定义的解析分别通过[analysis_yomikae](https://github.com/japanese-law-analysis/analysis_yomikae)和[analysis_ryakusyou](https://github.com/japanese-law-analysis/analysis_ryakusyou)工具完成。判例数据则通过[listup_precedent](https://github.com/japanese-law-analysis/listup_precedent)工具生成列表，并使用[pdf2txt_precedent](https://github.com/japanese-law-analysis/pdf2txt_precedent)工具将PDF格式的判例转换为文本文件。

使用方法

该数据集适用于法律研究、文本分析和自然语言处理等多个领域。用户可以通过访问`law`和`precedent`文件夹下的JSON和文本文件，获取法令和判例的详细信息。具体使用时，可以利用这些数据进行法律文本的自动化处理、法律术语的解析以及判例的文本挖掘。由于数据集采用CC0许可证，用户可以自由使用、修改和分发数据，无需担心版权问题。

背景与挑战

背景概述

法律与判例关系数据集是一个专注于法律文本和判例分析的资源库，旨在为法律研究者和从业者提供丰富的数据支持。该数据集由日本法律分析团队创建，涵盖了法令、废止法令、读音替换规则以及判例等多个方面。通过整合来自e-gov法令检索和判例集的信息，该数据集不仅提供了法令和判例的详细列表，还包含了文本解析后的结构化数据，如读音替换和简称定义等。这些数据为法律文本的自动化处理和分析提供了坚实的基础，推动了法律信息学领域的发展。

当前挑战

该数据集在构建过程中面临多项挑战。首先，法律文本的复杂性和多样性使得数据解析和结构化处理变得异常困难。例如，读音替换和简称定义的解析需要高度的语言理解和规则识别能力。其次，判例文本的获取和处理也是一个技术难题，尤其是从PDF格式中提取和转换为可分析的文本格式。此外，法律文本的时效性和动态变化要求数据集必须持续更新和维护，以确保其准确性和实用性。这些挑战不仅考验了数据处理技术，也对法律信息学的研究提出了更高的要求。

常用场景

经典使用场景

法律・判例関係のデータセット在法律研究和司法实践中具有广泛的应用。该数据集包含了法令和判例的详细信息，特别是通过解析和整理法令中的读替文和简称定义，为法律文本的自动化处理提供了基础。此外，判例文本的提取和整理为司法决策的分析和预测提供了丰富的数据支持。

解决学术问题

该数据集解决了法律领域中法令和判例文本的自动化处理问题，特别是在法律文本解析和语义理解方面。通过提供详细的法令和判例数据，研究者可以进行更深入的法律文本分析，如法律条文的语义解析、判例的自动化分类和预测等。这不仅推动了法律信息学的发展，也为司法实践提供了科学依据。

实际应用

在实际应用中，该数据集被广泛用于法律信息系统、司法决策支持系统和法律教育平台。例如，法律从业者可以利用该数据集快速检索和分析相关法令和判例，提高工作效率。同时，司法机关可以利用判例数据进行案件预测和判决一致性分析，提升司法公正性和透明度。

数据集最近研究