five

HKJudiciaryDataset

收藏
github2025-04-16 更新2025-04-24 收录
下载链接:
https://github.com/asifkhan123/HKJudiciaryDataset
下载链接
链接失效反馈
资源简介:
该数据集包含从香港司法机构提取的案例判决,共有1119个案例(其中99个是中文案例),时间跨度为1997年至2025年。文件夹结构如下所示,每年大约有7-10个公开案例被爬取。
创建时间:
2025-04-16
原始信息汇总

HKJudiciaryDataset 数据集概述

数据集基本信息

  • 数据来源:香港司法机构
  • 数据内容:案件判决书
  • 数据总量:1119 个案例(其中 99 个为中文案例)
  • 时间范围:1997 年至 2025 年
  • 数据采集方式:每年采集约 7-10 个公开案例

数据结构

  • 根目录:HKJudiciaryDataset
    • 子目录:按法院和案件类型分类
      • Competition Tribunal
        • Competition Tribunal Action
          • 2018
            • 1.txt 至 10.txt
        • Competition Tribunal Enforcement Action
          • 2017 至 2023
            • 各年份案例文件
      • Court of Appeal of the High Court
        • Application for Review
          • 2014 至 2024
            • 各年份案例文件
        • Civil Appeal
          • 2014 至 2024
            • 各年份案例文件(部分标注为中文)
        • Criminal Appeal
          • 2014 至 2024
            • 各年份案例文件
        • Miscellaneous Proceedings
          • 2017 至 2025
            • 各年份案例文件(部分标注为中文)
        • Reservation of Question of Law
          • 1997 和 2018
            • 案例文件
        • Secretary for Justices Reference
          • 2020 和 2021
            • 案例文件
      • Court of Final Appeal
        • Final Appeal (Civil)
          • 2014 至 2024
            • 各年份案例文件
        • Final Appeal (Criminal)
          • 2014 至 2024
            • 各年份案例文件
        • Miscellaneous Proceedings
        • Miscellaneous Proceedings (Civil)
          • 2014 至 2017
            • 各年份案例文件

数据特点

  • 语言:主要为英文,部分案例标注为中文
  • 文件格式:文本文件(.txt)
  • 组织方式:按法院、案件类型和年份分层存储
AI搜集汇总
数据集介绍
main_image_url
构建方式
HKJudiciaryDataset数据集通过系统化采集香港司法机构公开的判例文书构建而成,涵盖1997至2025年间1119宗案件(含99宗中文案例)。数据采集采用分层目录结构,按竞争法庭、高等法院上诉庭及终审法院等司法机构分类,每年精选7-10个具有代表性的公开案例,通过自动化爬虫技术获取原始文本并保留案件元数据。
特点
该数据集呈现香港普通法体系下多层级司法判例的完整脉络,其核心价值在于同时包含英文(主要)与中文判例的双语特性。案件覆盖民事、刑事及竞争法等专业领域,时间跨度达28年,能清晰反映法律适用标准的演进过程。文本数据采用标准化命名与纯文本格式存储,便于直接进行自然语言处理与分析。
使用方法
研究者可通过按年份和法院层级的目录结构快速定位目标案例,中文案件在文件名中明确标注。文本数据可直接用于法律条文分析、判决预测模型训练等研究。建议结合香港判例引用系统进行交叉验证,对于中文判例需注意繁简转换问题。数据集支持批量读取与正则匹配,适合开展纵向比较研究与横向领域分析。
背景与挑战
背景概述
HKJudiciaryDataset是一个专注于香港司法系统判例的数据集,收录了1997年至2025年间共计1119宗案件,其中99宗为中文案件。该数据集由香港司法机构公开的案例构成,涵盖了竞争法庭、高等法院上诉法庭以及终审法院等多个司法层级的判例。作为法律文本挖掘与自然语言处理研究的重要资源,该数据集为法学研究、司法决策支持以及法律人工智能应用提供了丰富的原始数据。其跨年度的案例覆盖特性,使得研究者能够纵向分析香港回归后的司法实践演变轨迹。
当前挑战
该数据集面临的核心挑战体现在两个维度:领域问题层面,法律文本特有的专业术语体系、复杂逻辑结构以及中英双语混合特征,对自然语言处理技术提出了语义理解深度与跨语言处理的特殊要求;数据构建层面,司法文书的非结构化特性需要复杂的文本清洗流程,而不同法院层级的案例分布不均衡可能导致数据代表性偏差。此外,中文判例仅占总量8.8%,这种语言不平衡可能影响双语法律文本分析的研究效果。
常用场景
经典使用场景
在法学研究领域,HKJudiciaryDataset作为香港司法判例的权威集合,为比较法研究和普通法系演变分析提供了珍贵素材。其跨年度的竞争法庭、高等法院上诉庭及终审法院案例,特别适合用于研究香港回归后法律体系的适应性变化,以及普通法传统在中文语境下的解释逻辑。
解决学术问题
该数据集有效解决了跨境法律研究中的判例获取难题,尤其填补了中文普通法判例库的空白。学者可通过时间序列分析,探究香港特别行政区成立以来司法实践中的法理演进,比如基本法解释冲突、竞争法实施成效等核心议题,为‘一国两制’下的法律协调提供实证依据。
衍生相关工作
基于该数据集衍生的经典研究包括香港大学法学院开发的‘判例引用网络分析系统’,该系统揭示了终审法院判决对下级法院的辐射效应。另有学者构建了双语法律术语对照知识图谱,其核心语料即来源于此数据集的中英文判例文本。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作