kanun
收藏Hugging Face2025-01-25 更新2025-02-10 收录
下载链接:
https://huggingface.co/datasets/jasan/kanun
下载链接
链接失效反馈官方服务:
资源简介:
Kanun数据集是一个包含丹麦法律文本的集合,数据来源于retsinformation.dk。数据集中的每个条目都有唯一的UUID、管辖权代码、语言代码、文档类型、状态、标题、文本内容、来源URL、哈希值、发布日期、签署日期和版本日期等信息。数据集涵盖了多种类型的法律文件,如立法法案、修正法案、合并法案等。数据集的语言为丹麦语,标签为法律,适用于100K到1M规模的数据集。
The Kanun Dataset is a curated collection of Danish legal texts sourced from retsinformation.dk. Each entry within the dataset features a unique UUID, jurisdiction code, language code, document type, status, title, text content, source URL, hash value, publication date, signing date, and version date. The dataset encompasses a diverse range of legal document types, including legislative bills, amendment bills, consolidation bills, and other related documents. The dataset is in Danish, labeled with the "legal" tag, and has a scale ranging from 100K to 1M.
创建时间:
2025-01-23
原始信息汇总
数据集概述:Kanun
数据集基本信息
- 数据集名称:Kanun
- 数据集大小:7.04 GB
- 下载大小:1.52 GB
- 语言:丹麦语 (da)
- 许可:丹麦版权法 (Danish Copyright Law)
- 许可链接:丹麦版权法
- 标签:法律 (legal)
- 大小分类:100K < n < 1M
数据集结构
-
特征:
- uuid:字符串,每行数据的唯一标识符
- jurisdiction:字符串,国家或司法区的ISO 3166-1 alpha-2代码
- language:字符串,文档语言的ISO 639-1代码
- type:字符串,文档类型(如立法法案、修正法案、综合法案等)
- status:字符串,文档的有效性状态:有效或历史
- title_main:字符串,文档的主要标题
- title_alternative:字符串,文档的常用名称(如有)
- text:字符串,文档的文本内容
- source_url:字符串,文档发布页面的来源URL
- source:字符串,文档的来源,目前仅限retsinformation
- hash:字符串,HTML的SHA-256哈希
- date_publication:字符串,文档发布日期
- date_signature:字符串,文档签署日期
- version_date:字符串,文档抓取版本日期
-
分割:
- 训练集:7040945732 字节,105240 个示例
数据集配置
- 配置名称:默认 (default)
- 数据文件:路径为data/train-*,分割为训练集
文档类型
- legislative_act
- amending_act
- consolidated_act
- data_consolidation
- official_publication
- implementing_act
- implementing_measure_gl_fo
- regulation
- executive_order
- amending_regulation
- executive_regulation
- international_regulation
- administrative_guidance_1
- administrative_guidance_2
- administrative_guidance_change_2
- tax_guidance
- guidance
- annotation
- letter
- letter_circular
- letter_open
- miscellaneous
- bill_as_presented
- written_submission_of_bill
- report_on_bill
- addition_to_report
- report_on_bill_details
- amendment_second_reading_l
- supplementary_report_on_bill
- addition_to_supplementary_report
- amendment_third_reading
- bill_as_passed
- independent_report
- resolution_proposal_as_presented
- written_submission_of_resolution
- report_on_resolution_proposal
- report_on_resolution_details
- amendment_second_reading_b
- resolution_proposal_as_passed
- decision
- final_administrative_decision
- statement
- court_judgment
关于司法区
- 司法区通常是丹麦 (DK),但在某些情况下,可能仅适用于格陵兰 (GL) 或法罗群岛 (FO)。
- 如果司法区列为DK,它可能包括丹麦、格陵兰或法罗群岛,具体取决于特定的标题或内容。
数据集引用
@misc{kanun2025dataset, title={Kanun}, author={Jasan Farah}, year={2025}, url={https://huggingface.co/datasets/jasan/kanun}, }
搜集汇总
数据集介绍

构建方式
Kanun数据集的构建采取了对丹麦法律文本的系统性整理,涵盖了自retsinformation.dk获取的各类法律文献。数据集以UUID作为唯一标识符,详细记录了每份文本的司法辖区、语言类型、文档类别、有效状态、标题、正文内容、来源链接、来源、哈希值、发布日期、签署日期和版本日期等信息。通过分类整理不同类型的法律文件,如立法法案、修正法案、合并法案等,数据集构建者确保了数据的多样性和全面性。
使用方法
用户可通过Hugging Face平台提供的接口和工具来访问Kanun数据集。下载后,用户可以依据数据集内的字段结构,如UUID、文档类型、有效状态等,对法律文本进行筛选和分析。针对具体的研究目的,用户可利用数据集中的元信息进行高级查询和文本挖掘,从而支持法律信息学、自然语言处理等领域的研究工作。
背景与挑战
背景概述
Kanun数据集,作为一部丹麦法律文献的集合,源于retsinformation.dk网站,其构建旨在为法律文本分析、信息检索以及自然语言处理等领域的研究提供支持。该数据集由Jasan Farah于2025年创建,包含了不同类型的法律文件,如立法法案、修正法案、统一法案等,覆盖了自颁布以来至收集时的有效和过期法律条文。Kanun数据集遵循丹麦版权法,并在学术界和工业界产生了广泛影响,为相关领域的研究提供了宝贵的数据资源。
当前挑战
在构建Kanun数据集的过程中,研究人员面临着多方面的挑战。首先,确保数据集的多样性和代表性,覆盖不同类型和状态的法律文件,同时需处理多种文件格式和来源的一致性问题。其次,数据集的标注和分类工作要求对丹麦法律体系有深入的理解,这对于非本地研究人员来说是一大挑战。此外,数据集在遵循版权法的前提下,还需解决数据访问和使用权限的问题,以确保研究的合法性和合规性。
常用场景
经典使用场景
在自然语言处理与法律文本分析领域,Kanun数据集因其涵盖了丰富的丹麦法律文本,而被广泛用于训练模型以理解和生成法律文档。其经典的使用场景包括构建能够自动分类法律文件类型、识别法律条文的效力状态、以及提取和总结法律文本中的关键信息的算法。
解决学术问题
Kanun数据集解决了学术研究中对于大规模、多样化法律文本数据的迫切需求,它帮助研究者克服了在法律文本挖掘、信息检索和语义理解方面的障碍,从而促进了法律领域文本分析技术的发展和法律知识工程的进步。
实际应用
实际应用中,Kanun数据集被法律专业人士和科技公司用于开发智能法律助手,这些助手可以辅助进行法律文件的检索、分析和起草,提高了法律工作的效率和质量。
数据集最近研究
最新研究方向
在法律文本分析与处理领域,Kanun数据集的引入为研究者提供了丰富的丹麦法律文献资源。该数据集包含多种类型的法律文件,如立法法案、修正法案、官方出版物等,为自然语言处理技术在法律文本分类、信息抽取、语义理解等方面的研究提供了坚实基础。近期,研究者们利用Kanun数据集探索法律文本自动摘要、智能问答以及法律文件相似性检测等前沿研究方向,这些研究对于提升法律工作效率、促进法律服务的自动化与智能化具有重要意义。
以上内容由遇见数据集搜集并总结生成



