kanun

Hugging Face2025-01-25 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/jasan/kanun

下载链接

链接失效反馈

官方服务：

资源简介：

Kanun数据集是一个包含丹麦法律文本的集合，数据来源于retsinformation.dk。数据集中的每个条目都有唯一的UUID、管辖权代码、语言代码、文档类型、状态、标题、文本内容、来源URL、哈希值、发布日期、签署日期和版本日期等信息。数据集涵盖了多种类型的法律文件，如立法法案、修正法案、合并法案等。数据集的语言为丹麦语，标签为法律，适用于100K到1M规模的数据集。

The Kanun Dataset is a curated collection of Danish legal texts sourced from retsinformation.dk. Each entry within the dataset features a unique UUID, jurisdiction code, language code, document type, status, title, text content, source URL, hash value, publication date, signing date, and version date. The dataset encompasses a diverse range of legal document types, including legislative bills, amendment bills, consolidation bills, and other related documents. The dataset is in Danish, labeled with the "legal" tag, and has a scale ranging from 100K to 1M.

创建时间：

2025-01-23

原始信息汇总

数据集概述：Kanun

数据集基本信息

数据集名称：Kanun
数据集大小：7.04 GB
下载大小：1.52 GB
语言：丹麦语 (da)
许可：丹麦版权法 (Danish Copyright Law)
许可链接：丹麦版权法
标签：法律 (legal)
大小分类：100K < n < 1M

数据集结构

特征：
- uuid：字符串，每行数据的唯一标识符
- jurisdiction：字符串，国家或司法区的ISO 3166-1 alpha-2代码
- language：字符串，文档语言的ISO 639-1代码
- type：字符串，文档类型（如立法法案、修正法案、综合法案等）
- status：字符串，文档的有效性状态：有效或历史
- title_main：字符串，文档的主要标题
- title_alternative：字符串，文档的常用名称（如有）
- text：字符串，文档的文本内容
- source_url：字符串，文档发布页面的来源URL
- source：字符串，文档的来源，目前仅限retsinformation
- hash：字符串，HTML的SHA-256哈希
- date_publication：字符串，文档发布日期
- date_signature：字符串，文档签署日期
- version_date：字符串，文档抓取版本日期
分割：
- 训练集：7040945732 字节，105240 个示例

数据集配置

配置名称：默认 (default)
数据文件：路径为data/train-*，分割为训练集

文档类型

legislative_act
amending_act
consolidated_act
data_consolidation
official_publication
implementing_act
implementing_measure_gl_fo
regulation
executive_order
amending_regulation
executive_regulation
international_regulation
administrative_guidance_1
administrative_guidance_2
administrative_guidance_change_2
tax_guidance
guidance
annotation
letter
letter_circular
letter_open
miscellaneous
bill_as_presented
written_submission_of_bill
report_on_bill
addition_to_report
report_on_bill_details
amendment_second_reading_l
supplementary_report_on_bill
addition_to_supplementary_report
amendment_third_reading
bill_as_passed
independent_report
resolution_proposal_as_presented
written_submission_of_resolution
report_on_resolution_proposal
report_on_resolution_details
amendment_second_reading_b
resolution_proposal_as_passed
decision
final_administrative_decision
statement
court_judgment

关于司法区

司法区通常是丹麦 (DK)，但在某些情况下，可能仅适用于格陵兰 (GL) 或法罗群岛 (FO)。
如果司法区列为DK，它可能包括丹麦、格陵兰或法罗群岛，具体取决于特定的标题或内容。

数据集引用

@misc{kanun2025dataset, title={Kanun}, author={Jasan Farah}, year={2025}, url={https://huggingface.co/datasets/jasan/kanun}, }

搜集汇总

数据集介绍

构建方式

Kanun数据集的构建采取了对丹麦法律文本的系统性整理，涵盖了自retsinformation.dk获取的各类法律文献。数据集以UUID作为唯一标识符，详细记录了每份文本的司法辖区、语言类型、文档类别、有效状态、标题、正文内容、来源链接、来源、哈希值、发布日期、签署日期和版本日期等信息。通过分类整理不同类型的法律文件，如立法法案、修正法案、合并法案等，数据集构建者确保了数据的多样性和全面性。

使用方法

用户可通过Hugging Face平台提供的接口和工具来访问Kanun数据集。下载后，用户可以依据数据集内的字段结构，如UUID、文档类型、有效状态等，对法律文本进行筛选和分析。针对具体的研究目的，用户可利用数据集中的元信息进行高级查询和文本挖掘，从而支持法律信息学、自然语言处理等领域的研究工作。

背景与挑战

背景概述

Kanun数据集，作为一部丹麦法律文献的集合，源于retsinformation.dk网站，其构建旨在为法律文本分析、信息检索以及自然语言处理等领域的研究提供支持。该数据集由Jasan Farah于2025年创建，包含了不同类型的法律文件，如立法法案、修正法案、统一法案等，覆盖了自颁布以来至收集时的有效和过期法律条文。Kanun数据集遵循丹麦版权法，并在学术界和工业界产生了广泛影响，为相关领域的研究提供了宝贵的数据资源。

当前挑战

在构建Kanun数据集的过程中，研究人员面临着多方面的挑战。首先，确保数据集的多样性和代表性，覆盖不同类型和状态的法律文件，同时需处理多种文件格式和来源的一致性问题。其次，数据集的标注和分类工作要求对丹麦法律体系有深入的理解，这对于非本地研究人员来说是一大挑战。此外，数据集在遵循版权法的前提下，还需解决数据访问和使用权限的问题，以确保研究的合法性和合规性。

常用场景

经典使用场景

在自然语言处理与法律文本分析领域，Kanun数据集因其涵盖了丰富的丹麦法律文本，而被广泛用于训练模型以理解和生成法律文档。其经典的使用场景包括构建能够自动分类法律文件类型、识别法律条文的效力状态、以及提取和总结法律文本中的关键信息的算法。

解决学术问题

Kanun数据集解决了学术研究中对于大规模、多样化法律文本数据的迫切需求，它帮助研究者克服了在法律文本挖掘、信息检索和语义理解方面的障碍，从而促进了法律领域文本分析技术的发展和法律知识工程的进步。

实际应用

实际应用中，Kanun数据集被法律专业人士和科技公司用于开发智能法律助手，这些助手可以辅助进行法律文件的检索、分析和起草，提高了法律工作的效率和质量。

数据集最近研究