ID_REG_DB_2510

Hugging Face2025-11-03 更新2025-11-04 收录

下载链接：

https://huggingface.co/datasets/Azzindani/ID_REG_DB_2510

下载链接

链接失效反馈

官方服务：

资源简介：

Indonesian Legal Regulations - SQLite Database是一个优化的SQLite数据库，包含了印度尼西亚法律规定的知识图谱数据。它包含199,998条法规、199,998个语义嵌入和199,998个TF-IDF向量，数据库大小为2273.46 MB。数据库设计用于支持快速的查询和集成，并提供全文搜索、标准化存储、BLOB存储和引用完整性等功能。

创建时间：

2025-11-03

原始信息汇总

Indonesian Legal Regulations - SQLite Database 数据集概述

数据集基本信息

语言：印度尼西亚语
许可证：CC-BY-4.0
任务类别：文本检索、问答
标签：法律、印度尼西亚法律、知识图谱、SQLite、数据库
规模类别：10万<n<100万

数据库统计信息

法规总数：199,998
嵌入向量总数：199,998
TF-IDF向量总数：199,998
数据库大小：2273.46 MB

数据库结构

主要数据表

regulations - 包含知识图谱特征的核心法规数据
embeddings - 1024维语义嵌入向量（BLOB存储）
tfidf_vectors - 20000维TF-IDF向量（BLOB存储）
kg_json_data - 知识图谱JSON数据
regulations_fts - 全文搜索虚拟表

技术特性

优化索引：常用字段快速查询
全文搜索：FTS5内容搜索功能
规范化存储：向量数据分离存储
BLOB存储：大型向量高效存储
外键约束：引用完整性保证

数据来源

源数据集：Azzindani/ID_REG_KG_2510

引用信息

bibtex @dataset{indonesian_legal_db_2024, author = {Azzindani}, title = {Indonesian Legal Regulations - SQLite Database}, year = {2024}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/Azzindani/ID_REG_DB_2510} }

搜集汇总

数据集介绍

构建方式

在印尼法律信息化建设背景下，该数据集通过结构化转换技术将原始知识图谱转化为SQLite关系型数据库。构建过程采用多表分离架构，将法规元数据、语义嵌入向量与TF-IDF特征分别存储于独立数据表，并通过外键约束维持实体关联完整性。数据库运用BLOB二进制格式高效存储高维向量数据，同时集成FTS5全文检索引擎，实现了对19.9万条法规数据的系统化重组与索引优化。

使用方法

研究人员可通过标准SQL接口开展灵活的法规分析实践。数据库支持传统的关系型查询与先进的向量检索相结合的操作模式，既能执行基于法规类型和年份的结构化筛选，也可通过全文检索模块实现关键词匹配，更可借助嵌入向量进行语义相似度计算。典型应用场景包括构建法律智能问答系统、开展法规演变趋势分析，或通过知识图谱特征实现重要法规挖掘。

背景与挑战

背景概述

印度尼西亚法律规范数据库ID_REG_DB_2510由研究者Azzindani于2024年构建，旨在系统化整合该国庞杂的法律条文体系。该数据集依托知识图谱技术，收录了近二十万条法律条文及其语义嵌入向量，通过SQLite数据库架构实现了法律文本的高效检索与关联分析。作为法律智能领域的重要基础设施，该资源显著提升了法律条文的可访问性，为司法自动化、政策分析及法律研究提供了结构化数据支撑。

当前挑战

构建过程中面临法律条文多源异构的整合难题，需解决不同时期颁布法规的格式标准化与语义对齐问题。技术层面需设计兼顾TF-IDF向量与深度语义嵌入的混合存储方案，同时确保大规模知识图谱数据的关系完整性。领域应用方面，该数据集需应对法律概念抽象性带来的语义检索挑战，以及跨法律条文关联推理的复杂性，这对自然语言处理模型的法律领域适应性提出更高要求。

常用场景

经典使用场景

在印度尼西亚法律智能研究领域，该数据集常被用于构建法规检索与知识发现系统。研究人员通过其内置的全文检索功能快速定位特定法律条文，结合知识图谱特征分析法规间的引用关系，为法律条文相似性匹配和跨领域法规关联提供数据支撑。其结构化存储模式特别适合开展法律文本的多维度分析，包括基于语义嵌入的法规聚类和基于权威评分的重点法规识别。

解决学术问题

该数据集有效解决了法律信息检索中的语义理解难题，通过融合TF-IDF向量与深度语义嵌入，显著提升了法律条文检索的准确率。其知识图谱结构为研究法规演化规律提供了数据基础，使得学者能够量化分析法律体系的网络拓扑特性。数据库内置的权威评分机制更为评估法律条文影响力提供了客观指标，推动了计算法学领域的定量研究方法创新。

实际应用

在法律科技实践层面，该数据库支撑着智能法律咨询系统的开发，律师可通过语义检索快速获取相关判例依据。政府机构利用其进行法规冲突检测，通过知识图谱分析发现潜在的法律条文矛盾。企业法务部门则借助其构建合规审查系统，基于权威评分优先处理关键法规，显著提升法律风险管理的效率与精准度。

数据集最近研究