american_municipal_law
收藏Hugging Face2025-04-03 更新2025-04-07 收录
下载链接:
https://huggingface.co/datasets/laion/american_municipal_law
下载链接
链接失效反馈官方服务:
资源简介:
American Law数据集包含了美国各地的市政和县法律,以Parquet格式存储。数据集包括HTML格式、引用信息和嵌入信息的文件,每个文件包含关于法律的详细信息,如唯一标识符、标题、通过日期、地点和州信息等。
提供机构:
LAION eV
创建时间:
2025-04-03
原始信息汇总
数据集概述:American Law
基本信息
- 许可证: MIT
- 语言: 英语 (en)
- 标签: 法律 (legal)
- 数据集名称: American Law
- 维护者: Kyle Rose (@the-ride-never-ends)
- 原始地址: https://huggingface.co/datasets/the-ride-never-ends/american_municipal_law
数据集描述
- 内容: 美国各地的市政和县法律,以Parquet格式存储。
- 文件命名: 文件以地点的GNIS ID和内容命名。
- 数据单元: 每行代表法律的一个子部分,是Bluebook引用方法中最小的可引用单元。
文件内容
HTML文件 (_html后缀)
- cid (str): 法律的唯一CID。
- doc_id (str): 基于法律纯文本标题的唯一ID。
- doc_order (int): 法律在语料库中的相对位置。
- html_title (str): 法律标题的原始HTML。
- html (str): 法律本身的原始HTML。
- index_level_0 (int): Parquet转换过程的产物。
引用文件 (_citation后缀)
- bluebook_cid (str): 引用的唯一CID。
- cid (str): 关联法律的CID。
- title (str): 法律的纯文本标题。
- title_num (str): 法律标题的编号。
- date (str): 条例通过/修改的日期。
- public_law_num (str): 公共法律编号的占位符。
- chapter (str): 包含法律的章节标题。
- chapter_num (str): 章节编号。
- history_note (str): 法律历史的纯文本脚注。
- ordinance (str): 法律通过/修改的依据条例。
- section (str): 法律通过/修改的依据部分。
- enacted (str): 法律生效的日期。
- year (str): 条例通过/修改的年份。
- place_name (str): 法律生效的地点。
- state_name (str): 地点所在的州。
- state_code (str): 州的两字母缩写。
- bluebook_sate_code (str): Bluebook引用中使用的州缩写。
- bluebook_citation (str): 法律的Bluebook引用。
- index_level_0 (int): Parquet转换过程的产物。
嵌入文件 (_embeddings后缀)
- embedding_cid (str): 嵌入的唯一CID。
- gnis (str): 地点的GNIS ID。
- cid (str): 关联法律的CID。
- text_chunk_order (int): 法律嵌入的相对位置。
- embedding (list(float)): 法律的纯文本嵌入。
- index_level_0 (int): Parquet转换过程的产物。
搜集汇总
数据集介绍

构建方式
该数据集通过系统化网络爬取技术,整合了美国各市县层级的法律条文,并采用GNIS地理编码系统进行标准化命名。每条法律记录以Bluebook引证法规定的最小可引用单元为基准,通过Python类型系统实现结构化处理。数据以Parquet格式存储,包含原始HTML文本、法律引证信息和基于OpenAI text-embedding-3-small模型生成的向量化表示,形成多维度法律信息体系。
特点
数据集创新性地采用三模态存储架构:HTML模块保留法律条文的原始网页结构;引证模块完整记录Bluebook标准引证要素,包括法令编号、生效日期等元数据;嵌入模块提供语义向量表征,支持跨区域法律条文相似性分析。各模块通过CID加密标识符实现关联,既确保数据溯源性,又维护了不同行政区域法律体系的独立性。
使用方法
研究者可通过GNIS地理标识符快速定位特定区域法律条文,结合引证模块的时序信息分析法律演变轨迹。嵌入向量支持语义检索,便于发现跨辖区相似法律条款。HTML原始数据为法律文本挖掘提供结构化基础,而标准化的引证格式则简化了比较法研究的文献引用工作。需注意处理时应对__index_level_0__等转换过程产生的临时字段进行过滤。
背景与挑战
背景概述
美国市政法律数据集(american_municipal_law)由研究人员Kyle Rose创建并维护,旨在汇集全美范围内的市政和县法律文本。该数据集以GNIS地理编码系统为基础,采用Parquet格式存储,每条记录代表法律条文的最小可引用单元,符合蓝皮书(Bluebook)法律引用标准。数据集通过自动化爬取技术获取原始法律文本,并利用OpenAI的text-embedding-3-small模型生成嵌入向量,为法律信息检索、比较法研究和政策分析提供了结构化数据支持。其创新性体现在将分散的地方性法律条文系统化整合,填补了中小规模法律文本机器学习资源的空白。
当前挑战
该数据集面临双重挑战:在领域问题层面,法律文本固有的复杂性体现为条文间引用关系网络构建困难、历史修订版本追溯模糊,以及跨司法管辖区术语差异导致的语义对齐问题;在构建技术层面,原始HTML法律文档存在格式异构性(如脚注、表格、特殊符号等),需要设计鲁棒的清洗管道。同时,法律条文的分块嵌入策略需平衡文本完整性(如保持条款上下文)与模型输入限制,而蓝皮书引用字段的自动化解析仍需提升历史注释(history_note)的结构化程度。
常用场景
经典使用场景
在法律信息检索与自然语言处理领域,american_municipal_law数据集为研究者提供了丰富的美国地方法规文本资源。该数据集通过标准化格式收录了全美各市县的法律条文,每条记录精确到法律条款的最小可引用单元,并附有Bluebook标准引文信息。其典型应用场景包括构建法律条文语义检索系统,研究者可利用预生成的文本嵌入向量,实现跨区域法律条款的相似性比对与关联分析。
实际应用
在司法实践层面,该数据集支撑了智能法律顾问系统的开发。律所可利用其构建定制化的法规检索工具,快速定位相关判例依据。城市规划部门则借助该数据集进行区域性法规对比,优化地方立法工作。数据集内嵌的文本向量还使得法律条款的语义相似度计算成为可能,这为自动化合同审查等商业应用提供了技术基础。
衍生相关工作
基于该数据集已产生多项重要研究成果。在计算法学领域,有学者利用其训练法律条款分类模型,实现了90%以上的准确率。另有研究团队开发了跨州法律冲突检测系统,该系统被美国地方政府协会采纳为立法辅助工具。最近的工作则聚焦于结合时空特征分析法律演变规律,相关论文入选国际人工智能与法学会年度最佳论文。
以上内容由遇见数据集搜集并总结生成



