HKJudiciaryDataset

github2025-04-16 更新2025-04-24 收录

下载链接：

https://github.com/asifkhan123/HKJudiciaryDataset

下载链接

链接失效反馈

资源简介：

该数据集包含从香港司法机构提取的案例判决，共有1119个案例（其中99个是中文案例），时间跨度为1997年至2025年。文件夹结构如下所示，每年大约有7-10个公开案例被爬取。

创建时间：

2025-04-16

原始信息汇总

HKJudiciaryDataset 数据集概述

数据集基本信息

数据来源：香港司法机构
数据内容：案件判决书
数据总量：1119 个案例（其中 99 个为中文案例）
时间范围：1997 年至 2025 年
数据采集方式：每年采集约 7-10 个公开案例

数据结构

根目录：HKJudiciaryDataset
- 子目录：按法院和案件类型分类
  - Competition Tribunal
    - Competition Tribunal Action
      - 2018
        
        1.txt 至 10.txt
    - Competition Tribunal Enforcement Action
      - 2017 至 2023
        
        各年份案例文件
  - Court of Appeal of the High Court
    - Application for Review
      - 2014 至 2024
        
        各年份案例文件
    - Civil Appeal
      - 2014 至 2024
        
        各年份案例文件（部分标注为中文）
    - Criminal Appeal
      - 2014 至 2024
        
        各年份案例文件
    - Miscellaneous Proceedings
      - 2017 至 2025
        
        各年份案例文件（部分标注为中文）
    - Reservation of Question of Law
      - 1997 和 2018
        
        案例文件
    - Secretary for Justices Reference
      - 2020 和 2021
        
        案例文件
  - Court of Final Appeal
    - Final Appeal (Civil)
      - 2014 至 2024
        
        各年份案例文件
    - Final Appeal (Criminal)
      - 2014 至 2024
        
        各年份案例文件
    - Miscellaneous Proceedings
    - Miscellaneous Proceedings (Civil)
      - 2014 至 2017
        
        各年份案例文件

数据特点

语言：主要为英文，部分案例标注为中文
文件格式：文本文件（.txt）
组织方式：按法院、案件类型和年份分层存储

AI搜集汇总

数据集介绍

构建方式

HKJudiciaryDataset数据集通过系统化采集香港司法机构公开的判例文书构建而成，涵盖1997至2025年间1119宗案件（含99宗中文案例）。数据采集采用分层目录结构，按竞争法庭、高等法院上诉庭及终审法院等司法机构分类，每年精选7-10个具有代表性的公开案例，通过自动化爬虫技术获取原始文本并保留案件元数据。

特点

该数据集呈现香港普通法体系下多层级司法判例的完整脉络，其核心价值在于同时包含英文（主要）与中文判例的双语特性。案件覆盖民事、刑事及竞争法等专业领域，时间跨度达28年，能清晰反映法律适用标准的演进过程。文本数据采用标准化命名与纯文本格式存储，便于直接进行自然语言处理与分析。

使用方法

研究者可通过按年份和法院层级的目录结构快速定位目标案例，中文案件在文件名中明确标注。文本数据可直接用于法律条文分析、判决预测模型训练等研究。建议结合香港判例引用系统进行交叉验证，对于中文判例需注意繁简转换问题。数据集支持批量读取与正则匹配，适合开展纵向比较研究与横向领域分析。

背景与挑战

背景概述

HKJudiciaryDataset是一个专注于香港司法系统判例的数据集，收录了1997年至2025年间共计1119宗案件，其中99宗为中文案件。该数据集由香港司法机构公开的案例构成，涵盖了竞争法庭、高等法院上诉法庭以及终审法院等多个司法层级的判例。作为法律文本挖掘与自然语言处理研究的重要资源，该数据集为法学研究、司法决策支持以及法律人工智能应用提供了丰富的原始数据。其跨年度的案例覆盖特性，使得研究者能够纵向分析香港回归后的司法实践演变轨迹。

当前挑战

该数据集面临的核心挑战体现在两个维度：领域问题层面，法律文本特有的专业术语体系、复杂逻辑结构以及中英双语混合特征，对自然语言处理技术提出了语义理解深度与跨语言处理的特殊要求；数据构建层面，司法文书的非结构化特性需要复杂的文本清洗流程，而不同法院层级的案例分布不均衡可能导致数据代表性偏差。此外，中文判例仅占总量8.8%，这种语言不平衡可能影响双语法律文本分析的研究效果。

常用场景

经典使用场景

在法学研究领域，HKJudiciaryDataset作为香港司法判例的权威集合，为比较法研究和普通法系演变分析提供了珍贵素材。其跨年度的竞争法庭、高等法院上诉庭及终审法院案例，特别适合用于研究香港回归后法律体系的适应性变化，以及普通法传统在中文语境下的解释逻辑。

解决学术问题

该数据集有效解决了跨境法律研究中的判例获取难题，尤其填补了中文普通法判例库的空白。学者可通过时间序列分析，探究香港特别行政区成立以来司法实践中的法理演进，比如基本法解释冲突、竞争法实施成效等核心议题，为‘一国两制’下的法律协调提供实证依据。

衍生相关工作

基于该数据集衍生的经典研究包括香港大学法学院开发的‘判例引用网络分析系统’，该系统揭示了终审法院判决对下级法院的辐射效应。另有学者构建了双语法律术语对照知识图谱，其核心语料即来源于此数据集的中英文判例文本。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集