five

kanun

收藏
Hugging Face2025-01-25 更新2025-02-10 收录
下载链接:
https://huggingface.co/datasets/jasan/kanun
下载链接
链接失效反馈
官方服务:
资源简介:
Kanun数据集是一个包含丹麦法律文本的集合,数据来源于retsinformation.dk。数据集中的每个条目都有唯一的UUID、管辖权代码、语言代码、文档类型、状态、标题、文本内容、来源URL、哈希值、发布日期、签署日期和版本日期等信息。数据集涵盖了多种类型的法律文件,如立法法案、修正法案、合并法案等。数据集的语言为丹麦语,标签为法律,适用于100K到1M规模的数据集。

The Kanun Dataset is a curated collection of Danish legal texts sourced from retsinformation.dk. Each entry within the dataset features a unique UUID, jurisdiction code, language code, document type, status, title, text content, source URL, hash value, publication date, signing date, and version date. The dataset encompasses a diverse range of legal document types, including legislative bills, amendment bills, consolidation bills, and other related documents. The dataset is in Danish, labeled with the "legal" tag, and has a scale ranging from 100K to 1M.
创建时间:
2025-01-23
原始信息汇总

数据集概述:Kanun

数据集基本信息

  • 数据集名称:Kanun
  • 数据集大小:7.04 GB
  • 下载大小:1.52 GB
  • 语言:丹麦语 (da)
  • 许可:丹麦版权法 (Danish Copyright Law)
  • 许可链接丹麦版权法
  • 标签:法律 (legal)
  • 大小分类:100K < n < 1M

数据集结构

  • 特征

    • uuid:字符串,每行数据的唯一标识符
    • jurisdiction:字符串,国家或司法区的ISO 3166-1 alpha-2代码
    • language:字符串,文档语言的ISO 639-1代码
    • type:字符串,文档类型(如立法法案、修正法案、综合法案等)
    • status:字符串,文档的有效性状态:有效或历史
    • title_main:字符串,文档的主要标题
    • title_alternative:字符串,文档的常用名称(如有)
    • text:字符串,文档的文本内容
    • source_url:字符串,文档发布页面的来源URL
    • source:字符串,文档的来源,目前仅限retsinformation
    • hash:字符串,HTML的SHA-256哈希
    • date_publication:字符串,文档发布日期
    • date_signature:字符串,文档签署日期
    • version_date:字符串,文档抓取版本日期
  • 分割

    • 训练集:7040945732 字节,105240 个示例

数据集配置

  • 配置名称:默认 (default)
  • 数据文件:路径为data/train-*,分割为训练集

文档类型

  • legislative_act
  • amending_act
  • consolidated_act
  • data_consolidation
  • official_publication
  • implementing_act
  • implementing_measure_gl_fo
  • regulation
  • executive_order
  • amending_regulation
  • executive_regulation
  • international_regulation
  • administrative_guidance_1
  • administrative_guidance_2
  • administrative_guidance_change_2
  • tax_guidance
  • guidance
  • annotation
  • letter
  • letter_circular
  • letter_open
  • miscellaneous
  • bill_as_presented
  • written_submission_of_bill
  • report_on_bill
  • addition_to_report
  • report_on_bill_details
  • amendment_second_reading_l
  • supplementary_report_on_bill
  • addition_to_supplementary_report
  • amendment_third_reading
  • bill_as_passed
  • independent_report
  • resolution_proposal_as_presented
  • written_submission_of_resolution
  • report_on_resolution_proposal
  • report_on_resolution_details
  • amendment_second_reading_b
  • resolution_proposal_as_passed
  • decision
  • final_administrative_decision
  • statement
  • court_judgment

关于司法区

  • 司法区通常是丹麦 (DK),但在某些情况下,可能仅适用于格陵兰 (GL) 或法罗群岛 (FO)。
  • 如果司法区列为DK,它可能包括丹麦、格陵兰或法罗群岛,具体取决于特定的标题或内容。

数据集引用

@misc{kanun2025dataset, title={Kanun}, author={Jasan Farah}, year={2025}, url={https://huggingface.co/datasets/jasan/kanun}, }

搜集汇总
数据集介绍
main_image_url
构建方式
Kanun数据集的构建采取了对丹麦法律文本的系统性整理,涵盖了自retsinformation.dk获取的各类法律文献。数据集以UUID作为唯一标识符,详细记录了每份文本的司法辖区、语言类型、文档类别、有效状态、标题、正文内容、来源链接、来源、哈希值、发布日期、签署日期和版本日期等信息。通过分类整理不同类型的法律文件,如立法法案、修正法案、合并法案等,数据集构建者确保了数据的多样性和全面性。
使用方法
用户可通过Hugging Face平台提供的接口和工具来访问Kanun数据集。下载后,用户可以依据数据集内的字段结构,如UUID、文档类型、有效状态等,对法律文本进行筛选和分析。针对具体的研究目的,用户可利用数据集中的元信息进行高级查询和文本挖掘,从而支持法律信息学、自然语言处理等领域的研究工作。
背景与挑战
背景概述
Kanun数据集,作为一部丹麦法律文献的集合,源于retsinformation.dk网站,其构建旨在为法律文本分析、信息检索以及自然语言处理等领域的研究提供支持。该数据集由Jasan Farah于2025年创建,包含了不同类型的法律文件,如立法法案、修正法案、统一法案等,覆盖了自颁布以来至收集时的有效和过期法律条文。Kanun数据集遵循丹麦版权法,并在学术界和工业界产生了广泛影响,为相关领域的研究提供了宝贵的数据资源。
当前挑战
在构建Kanun数据集的过程中,研究人员面临着多方面的挑战。首先,确保数据集的多样性和代表性,覆盖不同类型和状态的法律文件,同时需处理多种文件格式和来源的一致性问题。其次,数据集的标注和分类工作要求对丹麦法律体系有深入的理解,这对于非本地研究人员来说是一大挑战。此外,数据集在遵循版权法的前提下,还需解决数据访问和使用权限的问题,以确保研究的合法性和合规性。
常用场景
经典使用场景
在自然语言处理与法律文本分析领域,Kanun数据集因其涵盖了丰富的丹麦法律文本,而被广泛用于训练模型以理解和生成法律文档。其经典的使用场景包括构建能够自动分类法律文件类型、识别法律条文的效力状态、以及提取和总结法律文本中的关键信息的算法。
解决学术问题
Kanun数据集解决了学术研究中对于大规模、多样化法律文本数据的迫切需求,它帮助研究者克服了在法律文本挖掘、信息检索和语义理解方面的障碍,从而促进了法律领域文本分析技术的发展和法律知识工程的进步。
实际应用
实际应用中,Kanun数据集被法律专业人士和科技公司用于开发智能法律助手,这些助手可以辅助进行法律文件的检索、分析和起草,提高了法律工作的效率和质量。
数据集最近研究
最新研究方向
在法律文本分析与处理领域,Kanun数据集的引入为研究者提供了丰富的丹麦法律文献资源。该数据集包含多种类型的法律文件,如立法法案、修正法案、官方出版物等,为自然语言处理技术在法律文本分类、信息抽取、语义理解等方面的研究提供了坚实基础。近期,研究者们利用Kanun数据集探索法律文本自动摘要、智能问答以及法律文件相似性检测等前沿研究方向,这些研究对于提升法律工作效率、促进法律服务的自动化与智能化具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作