azerbaijan-court-data

Hugging Face2026-04-09 更新2026-04-10 收录

下载链接：

https://huggingface.co/datasets/IsmatS/azerbaijan-court-data

下载链接

链接失效反馈

官方服务：

资源简介：

Azerbaijan Court System Dataset 是阿塞拜疆司法系统最全面的开放数据集，包含164万条结构化记录和154万份法院判决PDF文件（约160GB）。数据集覆盖法院判决、活跃案件、预定听证会、法院注册信息、法官、律师和调解组织等多个方面。该数据集旨在为AI工程师、法律科技初创公司和研究人员提供大规模的真实法律数据。数据集包含两部分主要内容： 1. 结构化数据（CSV格式）：7个数据集共1,642,214条记录，包括法院判决（1,541,289条）、活跃案件（67,877条）、预定听证会（29,921条）、法院注册信息（116条）、法官信息（709条）、律师信息（2,232条）和调解组织信息（70条）。 2. 法院判决PDF文件：1,541,218份PDF文档，按decisionId对1000取模后分片存储为tar文件。数据集适用于多种AI应用场景，包括法律文本生成、法律AI助手开发、检索增强生成（RAG）、知识图谱构建、案件结果预测以及文档AI和OCR模型训练等。数据集中的各实体之间存在丰富的关联关系，为构建复杂的法律AI系统提供了坚实基础。

The Azerbaijan Court System Dataset is the most comprehensive open dataset for the Azerbaijani judicial system, containing 1,642,214 structured records and 1,541,218 court judgment PDF files (totaling approximately 160 GB). This dataset covers multiple aspects including court judgments, active cases, scheduled hearings, court registration information, judges, lawyers, mediation organizations and more. It aims to provide large-scale real-world legal data for AI engineers, legal tech startups and researchers. The dataset consists of two main parts: 1. Structured data (in CSV format): 7 datasets totaling 1,642,214 records, including court judgments (1,541,289 entries), active cases (67,877 entries), scheduled hearings (29,921 entries), court registration information (116 entries), judge information (709 entries), lawyer information (2,232 entries), and mediation organization information (70 entries). 2. Court judgment PDF files: 1,541,218 PDF documents, which are sharded into tar files based on the result of decisionId modulo 1000. The dataset is applicable to a variety of AI application scenarios, including legal text generation, development of legal AI assistants, retrieval-augmented generation (RAG), knowledge graph construction, case outcome prediction, as well as training of document AI and OCR models. There are rich associative relationships among various entities in the dataset, providing a solid foundation for building sophisticated legal AI systems.

创建时间：

2026-04-08

原始信息汇总

数据集概述

基本信息

数据集名称：Azerbaijan Court System Dataset
数据集标识：IsmatS/azerbaijan-court-data
语言：阿塞拜疆语（az）、英语（en）
许可证：CC BY 4.0
任务类别：文本分类、文本生成、问答、令牌分类、特征提取、摘要
标签：法律、法院、阿塞拜疆、阿塞拜疆语、自然语言处理、法院判决、司法、判例法、律师、Graph RAG、RAG、知识图谱、PDF、表格、文本、OCR、文档AI、微调、嵌入
规模类别：1M<n<10M
数据总量：约1.64百万条结构化记录和约1.54百万份法院判决PDF文件（约160 GB）

数据集目的

本数据集旨在为以下目的民主化访问阿塞拜疆的法律数据：

基于阿塞拜疆法律文本（结构化CSV和原始PDF格式的法院判决、案件结果、法律术语）训练和微调大型语言模型。
构建法律AI初创公司——自动化法律研究、案件结果预测、律师案件匹配、文档分析、OCR流水线。
支持RAG和Graph RAG应用——法院、法官、案件和判决之间的互联特性使其非常适合检索增强生成和知识图谱构建。
学术研究——司法分析、法律系统效率研究、比较法研究。
法律科技创新——自动化日常法律工作、构建智能案件管理系统、创建阿塞拜疆法律聊天机器人。
文档AI——1.54M份法院判决PDF用于训练文档理解、法律OCR和PDF提取模型。

数据集内容

结构化数据（CSV文件）

文件	记录数	大小	描述
`data/court_acts.csv`	1,541,289	~250 MB	包含结果、案件类型、法官、日期（2016–2026）的法院判决
`data/court_cases.csv`	67,877	~15 MB	活跃/待决法院案件——实时案件清单快照
`data/court_meetings.csv`	29,921	~6 MB	已安排的法院听证会（2026年4月–9月）
`data/courts.csv`	116	~20 KB	包含类型、地区和层级的法院注册表
`data/judges.csv`	709	~160 KB	包含法院分配、简历和人口统计信息的法官注册表
`data/lawyers.csv`	2,232	~350 KB	包含执业领域和经验的持证律师
`data/organizations.csv`	70	~15 KB	按地区划分的调解组织

总计：7个数据集共1,642,214条结构化记录（约494 MB CSV）

法院判决PDF文件

目录	文件数	总大小	描述
`pdfs/`	1,541,218	~160 GB	全文法院判决文档（PDF格式）

PDF文件按分片存储为tar归档文件（000.tar 至 999.tar）。每个tar包含约1,500个以decisionId命名的PDF文件（例如12345678.pdf）。每个tar文件约160 MB。

分析图表

charts/目录中包含30个商业分析图表（PNG格式，150+ DPI），涵盖数量、趋势、结果、区域分析和跨数据集关系。

实体关系与模式

7个数据集相互关联。理解这些关系对于构建基于此数据的AI应用至关重要。

连接键

来源	目标	连接策略
`court_acts.decisionId`	PDF文件	`{decisionId}.pdf` 位于 `pdfs/{decisionId % 1000}.tar` 内
`court_acts.court`	`courts.title`	规范化两者：去除变音符号（ə→e, ı→i, ö→o, ü→u, ş→s, ç→c, ğ→g），小写，合并空白字符
`court_acts.judge`	`judges.full_name`	规范化 + 去除父名后缀（oğlu/qızı）：`"Abasov Qürur Bəybala oğlu"` → `"abasov qurur beybala"` 匹配 `"Abasov Qürur Bəybala"`
`judges.work`	`courts.title`	与上述相同的法院名称规范化
`court_cases.court`	`courts.title`	与上述相同的规范化
`court_meetings.court`	`courts.title`	与上述相同的规范化
`court_cases.caseNo`	`court_acts.caseNo`	直接字符串匹配——将活跃案件与其历史判决关联
`court_meetings.caseId`	`court_cases.id`	直接整数匹配——将已安排的听证会与案件关联
`courts.region_title`	`organizations.region_title`	直接字符串匹配——将法院与同地区的调解组织关联

关键字段参考

court_acts.csv（1,541,289行——核心数据集）

列	类型	描述	示例
`decisionId`	int	唯一判决ID——链接到PDF	`5432109`
`caseId`	int	案件ID	`1234567`
`caseNo`	str	人类可读的案件编号	`2(2)-1234/2024`
`caseType`	str	案件类别	`Mülki işlər`（民事）
`decisionType`	str	判决类别	`Qətnamə`（判决）
`decisionDate`	str	判决日期（ISO格式）	`2024-03-15`
`court`	str	法院名称（阿塞拜疆语）	`Bakı Şəhəri Xətai Rayon Məhkəməsi`
`judge`	str	法官姓名	`Mehdiyev Nəriman Hüseynqulu`
`caseResult`	str	结果文本（阿塞拜疆语）	`İddia təmin edildi`（诉求获准）
`categoryName`	str	子类别（47.7%有数据）
`caseCodes`	str	案件代码（99.9%为空——可忽略）

court_cases.csv（67,877行——待决案件实时快照）

列	类型	描述
`id`	int	案件ID
`caseNo`	str	案件编号（匹配court_acts.caseNo）
`caseType`	str	案件类别
`caseStatus`	str	状态之一：`İcraatda`（审理中，84.9%）、`Dayandırılıb`（已中止，13.4%）、`Hakim təyin edilib`（法官已指派，1.7%）
`court`	str	法院名称
`judge`	str	法官姓名
`enterDate`	str	立案日期

court_meetings.csv（29,921行——2026年4月至9月未来日程）

列	类型	描述
`meetingId`	int	听证会ID
`caseId`	int	关联的案件ID
`caseType`	str	案件类别
`meetingType`	str	听证会类型（预备庭、口头辩论、复审等）
`meetingDate`	str	安排的日期时间
`court`	str	法院名称
`judge`	str	法官姓名
`meetingStatus`	str	`Təyin edilib`（已安排，98.4%）、`Keçirilməyib`（未举行，0.9%）、`Ləğv edilib`（已取消，0.7%）

courts.csv（116行——法院注册表）

列	类型	描述
`id`	int	法院ID
`title`	str	法院名称（标准阿塞拜疆语）
`type_title`	str	7种类型之一：Rayon（85）、Heavy Crimes（6）、Appeal（6）、Military（6）、Administrative（6）、Commercial（6）、Supreme（1）
`region_title`	str	地理区域
`parent_court_title`	str	上诉上级法院

judges.csv（709行——法官注册表）

列	类型	描述
`id`	int	法官ID
`full_name`	str	包含父名的全名（例如`Abasov Qürur Bəybala oğlu`）
`work`	str	指派法院名称——链接到法院的关键字段
`description`	str	角色描述（48.5%有数据）
`organization`	str	组织隶属关系（34.7%有数据）
`experiences`	str	职业经历，管道分隔（43.9%有数据）
`educations`	str	教育历史（14.5%有数据）
`birthday`	str	出生日期（49.8%有数据）
`photo`	str	照片URL
`cover`	str	封面文本/头衔

注意：court_acts.csv中的法官姓名省略了父名后缀（oğlu/qızı）。匹配时需去除此后缀："Abasov Qürur Bəybala oğlu" → "Abasov Qürur Bəybala"。规范化后，709名注册法官中有636名（90%）与法院判决匹配。

lawyers.csv（2,232行）

列	类型	描述
`id`	int	律师ID
`full_name`	str	全名
`areas`	str	执业领域，分号分隔（43.1%有数据）
`languages`	str	使用的语言
`duration`	str	经验字符串，例如`16 il`（16年）。使用正则表达式`(d+)`提取数字
`institution_title`	str	律师协会

organizations.csv（70行——调解组织）

列	类型	描述
`id`	int	组织ID
`company`	str	组织名称
`region_title`	str	地区
`mediator_count`	int	调解员数量
`voen`	str	税号

数据集使用案例

基于法院判决的检索增强生成：构建法律问答系统，检索相关法院判决并生成基于实际判例法的答案。
知识图谱构建：数据集具有丰富的互联结构，适合构建图RAG应用。
案件结果预测：利用1.54M条带标签的判决训练模型预测案件结果。
法律AI助手/微调：基于阿塞拜疆法律文本创建用于微调LLM的训练数据。
文档AI与法律OCR：使用1.54M份法院判决PDF训练或评估文档理解模型。

搜集汇总

数据集介绍

构建方式

在司法数据开放与人工智能技术融合的背景下，阿塞拜疆法院系统数据集通过系统化的数据采集与结构化处理构建而成。该数据集整合了来自阿塞拜疆司法系统的多源异构数据，包括法院裁决、案件记录、庭审安排、法院及法官注册信息等。核心构建流程涉及从公开司法平台抓取原始数据，经过清洗、去重与标准化处理，形成覆盖2016年至2026年的时序记录。结构化数据以CSV格式保存，总计包含约164万条记录；同时，约154万份法院裁决PDF文件通过分片存储于tar归档中，确保了大规模文档的高效管理与访问。数据实体之间通过规范化键值关联，构建出法院、法官、案件与裁决之间的完整知识图谱。

使用方法

针对人工智能与法律技术应用，该数据集支持多种前沿研究方法。研究者可利用Hugging Face Datasets库或pandas直接加载结构化CSV文件，进行数据探索与特征分析。对于PDF文档的访问，可通过决策ID计算分片编号，从对应tar归档中提取特定法律文书，实现文本与元数据的关联。在应用层面，数据集适用于训练法律文本分类与生成模型，构建基于检索增强生成的智能法律问答系统，以及开展案件结果预测等监督学习任务。其内在的图结构支持知识图谱构建与图检索增强生成，为司法网络分析提供丰富节点与边关系。同时，大规模法律文书集合为文档智能与OCR模型训练提供了真实场景数据。

背景与挑战

背景概述

阿塞拜疆法院系统数据集于2024年由研究人员Ismat S.构建并发布，旨在为人工智能工程师、法律科技初创企业及学者提供大规模、真实世界的阿塞拜疆司法数据。该数据集涵盖了2016年至2026年间的164万条结构化记录及154万份法院判决PDF文件，内容涉及法院裁决、活跃案件、排期听证、法院注册信息、法官、律师及调解组织等多维度实体。作为目前最全面的阿塞拜疆司法系统开放数据集，其核心研究问题聚焦于如何通过结构化与非结构化数据的融合，推动法律人工智能在自然语言处理、知识图谱构建、案例预测及文档理解等领域的应用，对促进阿塞拜疆法律科技的创新与司法透明度具有显著影响力。

当前挑战

该数据集致力于解决法律人工智能领域中的多项挑战，包括对阿塞拜疆语法律文本的深度理解、跨实体关联推理以及基于大规模案例的判决预测等具体问题。在构建过程中，面临的主要挑战涉及数据异构性处理，例如法院名称在阿塞拜疆语与拉丁转写变体间的不一致，需设计特定规范化流程以实现准确关联；此外，法官姓名中父系后缀的剥离、大规模PDF文件的存储与高效检索，以及非结构化文本与结构化记录间的对齐，均对数据集的整合与可用性提出了较高要求。

常用场景

解决学术问题

该数据集有效解决了法律自然语言处理中低资源语言语料匮乏的难题，为阿塞拜疆语法律文本分析提供了大规模标注资源。其覆盖的判决结果、案件类型、法官信息等结构化字段，支持司法行为模式挖掘、判决一致性分析及法院效率评估等实证研究。通过提供互联的实体关系图谱，该数据集进一步推动了法律知识图谱构建与图神经网络在法律领域的应用探索。

实际应用

在法律科技产业中，该数据集支撑了多种实际应用场景的落地。例如，律师事务所可利用其开发案件结果预测工具，辅助评估诉讼策略；司法管理部门能够基于历史数据构建案件流程优化系统，提升法院工作效率。此外，文档智能处理公司可借助海量PDF训练OCR与信息抽取模型，实现法律文书的自动化解析与归档。

数据集最近研究