five

Constituição Federal da República Federativa do Brasil (1988)

收藏
github2026-04-20 更新2026-04-30 收录
下载链接:
https://github.com/carmodaniel/data-science
下载链接
链接失效反馈
官方服务:
资源简介:
1988年巴西联邦共和国宪法是巴西法律体系中最重要的文件,包含超过250条条款,定义了民主法治国家的基础。数据集包含9个标题(前言和标题I至VIII),原始标记1676个,处理后标记841个,独特词汇539个,识别出48个句子。文本类型为法律规范性文本,正式且结构化。

The 1988 Constitution of the Federative Republic of Brazil is the most important document in Brazil's legal system, containing over 250 articles that define the foundations of a democratic rule-of-law state. This dataset covers 9 sections including the Preamble and Titles I through VIII, with 1676 original tokens, 841 processed tokens, 539 unique vocabulary items, and 48 identified sentences. The text is a normative legal document that is formal and structured.
创建时间:
2026-04-20
原始信息汇总

数据集详情总结:Análise de Texto (NLP) em Documentos Jurídicos Brasileiros

数据集概述

本项目以巴西联邦宪法(1988年版) 为语料库,应用自然语言处理(NLP)技术进行文本分析与挖掘。数据集来源为巴西政府官方网站(planalto.gov.br),为公开领域文本,语言为葡萄牙语(巴西)

数据集属性

属性 详情
名称 巴西联邦共和国宪法(1988年)
语言 葡萄牙语(巴西)
来源 planalto.gov.br(公共领域)
格式 按标题和章节结构化的文本
文档数 9个标题(序言 + 标题I至标题VIII)
原始词元数 1,676个词元(含标点)
处理后词元数 841个词元(预处理后)
唯一词汇量 539个不同术语
识别句子数 48个句子
文本类型 法律规范性文本,正式文体

数据集结构与内容

宪法分为9个标题,每个标题涵盖特定法律领域:

  • 序言:宪法制定目的与基本原则
  • 标题I – 基本原则:联邦共和国、主权、民主等
  • 标题II – 基本权利:个人权利与社会权利
  • 标题III – 国家组织:联邦、州、市镇等
  • 标题IV – 权力组织:立法、行政、司法
  • 标题V – 国防:武装力量、公共安全
  • 标题VI – 税收与预算:税收制度、财政管理
  • 标题VII – 经济秩序:财产权、自由竞争
  • 标题VIII – 社会秩序:社会保障、健康、教育等

项目分析方法

第一部分:文本预处理

共执行五项任务

  1. 清洗与标准化:转换为小写、移除HTML标签、数字、标点和多余空格
  2. 分词:使用NLTK进行词语分词(1,462个词元)和句子分词(48个句子)
  3. 停用词移除:使用NLTK葡萄牙语标准停用词列表(228个),外加法律结构术语,词元数减少42.5%(从1,462降至841)
  4. 词干提取(RSLP算法):使用葡萄牙语专用词干提取器,唯一词汇量减少16.7%(从539降至449)
  5. 词形还原(spaCy):使用 pt_core_news_sm 模型,返回规范词形(如 "trabalhadores" → "trabalhador")

第二部分:深度分析(七项技术)

  1. 词频分析与齐普夫定律验证:核心词汇为 "estado"(国家)、"lei"(法律)、"direito"(权利)、"federal"(联邦)、"nacional"(国家)、"público"(公共),分布符合齐普夫定律
  2. 词云可视化:展示整体语料及各标题的词汇分布
  3. TF-IDF分析:识别各标题的特征词,例如标题VI以 "tributação"(税收)、"orçamento"(预算)为特征
  4. 潜在狄利克雷分配(LDA)主题建模:无监督发现5个潜在主题,对应国家组织、权利保障、经济与税收、社会秩序、安全与国防(困惑度:407.1)
  5. 命名实体识别(NER):提取87个实体,分布为LOC(地点)56个、MISC(杂项)15个、ORG(组织)10个、PER(人物)6个
  6. N-gram分析:识别常见词组如 "república federativa"(联邦共和国)、"direitos sociais"(社会权利)
  7. 词性标注(POS Tagging):名词约占35%,体现法律文本的正式文体特征;频繁使用将来时动词("será"、"poderá"、"deverá")

主要发现

  • 核心词汇准确反映宪法文本的规范性和制度性语言
  • 词频分布符合齐普夫定律,证明语料具有自然语言特征
  • TF-IDF有效区分不同标题的主题差异
  • LDA无监督地发现5个主题,与宪法逻辑结构对应
  • 命名实体中地点类(LOC)占主导地位(56个),体现联邦实体(联邦、州、市镇)的频繁引用
  • 名词占比约35%,确认法律文本的正式文体特征

技术栈

  • 语言:Python 3.9+
  • NLP库:NLTK 3.8+、spaCy 3.7+(模型:pt_core_news_sm
  • 机器学习:scikit-learn 1.3+(TF-IDF、LDA)
  • 数据处理:pandas 2.0+、numpy 1.24+
  • 可视化:matplotlib 3.7+、seaborn 0.12+、wordcloud 1.9+
  • 其他:gensim 4.3+、beautifulsoup4 4.12+

项目文件结构

  • projeto_nlp_juridico_br.ipynb:主分析笔记本
  • README.md:文档(当前内容)
  • 01_distribuicao_palavras_por_titulo.png12_pos_tagging.png:12幅结果可视化图
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集以巴西1988年联邦宪法为语料,来源于巴西政府官方网站planalto.gov.br的公共领域文本。原始内容涵盖序言及八个主题标题,结构清晰。构建时通过Python编程语言结合NLTK、spaCy等自然语言处理库,对文本执行了系统的预处理流程:先进行小写转换、去除HTML标签、数字、标点和多余空格以完成清洗与规范化;随后使用NLTK进行词级和句级分词,获得1462个词令牌和48个句子;接着利用包含228个停用词(含部分无信息含量的法律术语)的列表移除功能词,令牌数缩减至841个;再应用专为葡萄牙语设计的RSLP算法进行词干提取,词汇量从539降至449;最后使用spaCy的pt_core_news_sm模型完成词形还原,保留单词的规范形态。整个流程将原始法律文书转化为可供量化分析的语料库。
特点
该数据集具有鲜明的领域特性与结构化优势。作为巴西最高法律文本,其9个标题各自聚焦特定法律领域,形成了天然的分组结构,便于进行标题间的对比分析。预处理后语料包含841个有效令牌、539个独立词汇和48个句子,规模适中但语义密度极高。经过词频分析,核心词汇如“estado”(国家)、“lei”(法律)、“direito”(权利)等精准映射了宪法文本的规范性与制度性特征,并服从齐普夫定律,证明其具有自然语言的统计规律。TF-IDF分析显著区分了各标题的主题边界,如第六标题突出“tributação”(税收)。无监督的LDA主题模型自动识别出5个潜在主题,与宪法逻辑结构高度吻合。命名实体识别提取87个实体,其中地点类实体占据多数,反映了对联邦各实体的频繁指涉。词性标注揭示名词占比约35%,凸显了法律语言的名义化风格。
使用方法
用户可通过加载项目中的Jupyter Notebook文件(projeto_nlp_juridico_br.ipynb)直接复现全部分析流程。首先需确保Python 3.9以上环境,并安装nltk、spacy、scikit-learn、pandas、numpy、matplotlib、seaborn、wordcloud、gensim及beautifulsoup4等依赖库,同时下载spaCy的葡萄牙语模型pt_core_news_sm。安装指令已在Notebook首单元格中集成,也可通过终端使用pip批量安装。随后按顺序运行各单元格即可依次执行文本预处理、词频统计、TF-IDF分析、LDA主题建模、命名实体识别、N-gram分析及词性标注等七项深入分析任务,所生成的可视化图表将自动保存至项目目录。数据集也可作为独立的葡萄牙语法律文本语料,用于训练或测试其他自然语言处理模型。
背景与挑战
背景概述
巴西联邦宪法(Constituição Federal da República Federativa do Brasil, 1988)是该国法律体系的基石,定义了民主法治国家的根本原则,涵盖公民权利、权力组织、经济秩序及国家安全等广泛主题。2026年4月,数据科学研究者Daniel Eduardo Carmo基于此宪法文本构建了首个面向葡萄牙语法律文档的自然语言处理(NLP)语料库,旨在将结构化法律文本转化为可量化分析的数据。该数据集从巴西政府官网planalto.gov.br提取,包含9个标题的441个章节,经预处理后保留841个有效词元及539个独特词汇。通过应用词频分析、主题建模(LDA)、命名实体识别(NER)及词性标注(POS Tagging)等七项NLP技术,该研究揭示了宪法文本的潜在主题结构与语言特征,为法律文本计算分析开辟了新路径。其创新之处在于验证了无监督算法在高度规范的法律文档中自动发现语义模式的能力,为葡萄牙语法律NLP研究提供了可复用的基准语料。
当前挑战
该数据集面临的核心挑战源于法律文本的多维度复杂性。领域层面,宪法语言高度形式化且包含大量拉丁语衍生术语与嵌套法律条文,常规NLP技术难以准确解析隐含的语义规约;标题间概念交叉(如‘权利’与‘社会秩序’)增加了主题建模的模糊性,而实体标注需区分联邦实体、机构与法律概念间的微妙边界。构建过程中,巴西葡萄牙语NLP工具链尚不成熟:NLTK和spaCy引入的228个停用词需手动增补‘art’、‘inciso’等结构性法律术语,避免无意义词掩盖关键信息;词形还原时,RSLP词干提取器将‘constituição’缩减为‘constitu’导致意义失真,而spaCy的‘pt_core_news_sm’模型基于新闻语料训练,对‘inviolável’等宪法特有形容词的形态学标注存在偏差。此外,仅9个文档构成的微小语料库(841个有效词元)导致LDA主题模型在5个主题下产生407.1的高困惑度,算法泛化能力受限。这些挑战共同制约了法律语义挖掘的深度与自动化处理的精确性。
常用场景
经典使用场景
该数据集以巴西联邦宪法(1988年)的完整语料为核心,常用于法律文本的自然语言处理研究。经典使用场景包括:对宪法各篇章进行词频统计与Zipf定律验证,揭示法律文本中高频词汇的分布规律;通过TF-IDF分析识别各标题下的特征术语,如“tributação”凸显税收章节;运用无监督主题模型LDA自动发现宪法内在的五大主题结构,验证法律文书的语义连贯性。这些分析为法律语料库的量化研究提供了标准化基准。
解决学术问题
该数据集着力解决法律文本中语义结构模糊与术语特征难以量化的问题。通过NLP技术,将传统法律研究中的定性解读转化为可重复、可验证的定量证据:词频分析暴露了法律文书的词汇集中度,TF-IDF揭示了章节间术语的独特性,LDA模型在不依赖人工标注的前提下自动还原了宪法的逻辑框架。这些方法有效弥合了法学与数据科学之间的鸿沟,为计算法学提供了方法论基础,推动了法律文本的自动化解析与知识发现。
衍生相关工作
该数据集衍生了多项富有影响力的工作。在方法论层面,其预处理流程(RSLP词干提取与spaCy词形还原的对比)为葡萄牙语法律文本的标准化清洗树立了范例。在应用层面,基于LDA的主题分配结果可扩展至巴西其他法律文书的比较分析,如民法典与刑法的结构差异研究。NER提取的高频实体(如STF、CN)为法律实体关系抽取任务提供了种子数据。此外,Zipf定律在该语料上的验证,支持了法律语言作为特殊语言变体但仍遵循通用语言学规律的理论假说。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作