stf_regex

Hugging Face2024-11-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/juliadollis/stf_regex

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含法律相关的文本信息，如判决全文、下载链接、决策日期、发布日期、决策内容、类别描述、摘要、标识符、引用的判例、报告部长、审判机构名称、案件编号、立法参考、类别缩写、决策类型、标题、类似判决、当事人列表文本、主题和全文正则表达式。数据集分为训练集，包含78477个样本，总大小为7527252408字节。

This dataset contains legal-related textual information, including full texts of judgments, download links, decision dates, release dates, decision contents, category descriptions, abstracts, identifiers, cited precedents, reporting ministers, names of adjudication bodies, case numbers, legislative references, category abbreviations, decision types, titles, similar judgments, texts of party lists, topics, and full-text regular expressions. This dataset is split into a training set, which contains 78,477 samples with a total size of 7,527,252,408 bytes.

创建时间：

2024-11-28

原始信息汇总

数据集概述

数据集信息

特征

inteiro_teor: 字符串类型
url_download: 字符串类型
dataDecisao: 时间戳类型（微秒精度）
dataPublicacao: 时间戳类型（微秒精度）
decisao: 字符串类型
descricaoClasse: 字符串类型
ementa: 字符串类型
id: 字符串类型
jurisprudenciaCitada: 字符串类型
ministroRelator: 字符串类型
nomeOrgaoJulgador: 字符串类型
numeroProcesso: 字符串类型
referenciasLegislativas: 字符串序列类型
siglaClasse: 字符串类型
tipoDeDecisao: 字符串类型
titulo: 字符串类型
acordaosSimilares: 字符串序列类型
partes_lista_texto: 字符串类型
temaProcs: 字符串序列类型
inteiro_teor_regex: 字符串类型

数据分割

train: 包含78477个样本，占用7527252408字节

数据集大小

下载大小: 2232235146字节
数据集大小: 7527252408字节

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

搜集汇总

数据集介绍

构建方式

stf_regex数据集的构建基于巴西最高法院的司法判决文本，涵盖了广泛的司法领域。数据集的来源包括判决的全文、判决日期、发布信息、法官意见、法律引用等多个维度的信息。通过系统化的数据采集与清洗，确保了数据的完整性与一致性。数据集还特别引入了正则表达式处理后的文本字段，为后续的文本分析与模式识别提供了便利。

使用方法

stf_regex数据集的使用方法多样，适用于司法文本分析、法律信息检索、案例相似性研究等多个领域。用户可以通过`inteiro_teor_regex`字段进行高效的正则表达式匹配，快速提取关键信息。数据集中的元数据字段可用于构建司法判决的时间序列分析或法官决策模式的研究。此外，`acordaosSimilares`字段为案例相似性分析提供了直接的数据支持，用户可以通过该字段探索司法判决的关联性与一致性。

背景与挑战

背景概述

stf_regex数据集聚焦于法律文本的自动化处理与分析，旨在通过正则表达式技术提取和解析法律文档中的关键信息。该数据集由巴西最高法院（Supremo Tribunal Federal, STF）提供，涵盖了大量的法律判决文本，包括判决全文、判决日期、法官信息、法律引用等。其创建时间可追溯至巴西最高法院数字化进程的推进阶段，主要研究人员和机构包括巴西最高法院的技术团队及相关法律专家。该数据集的核心研究问题在于如何高效地从复杂的法律文本中提取结构化信息，以支持法律研究、司法决策和自动化法律服务的开发。stf_regex数据集在法律信息检索、自然语言处理和法律智能化领域具有重要的影响力，为相关研究提供了丰富的数据资源。

当前挑战

stf_regex数据集在解决法律文本自动化处理问题时面临多重挑战。法律文本通常具有高度的专业性和复杂性，其语言结构严谨且包含大量专业术语，这对文本解析和信息提取技术提出了极高的要求。正则表达式虽然能够有效处理结构化文本，但在面对法律文本中的多样化表达和复杂句式时，其灵活性和适应性仍显不足。此外，数据集的构建过程中也面临诸多技术难题，例如如何确保数据的完整性和一致性，如何处理文本中的多语言和跨文化差异，以及如何应对法律文本的频繁更新和修订。这些挑战不仅考验了数据处理技术的极限，也为法律文本的智能化研究提供了新的研究方向。

常用场景

经典使用场景

stf_regex数据集在法律文本分析领域具有广泛的应用，特别是在巴西最高法院的判决文本处理中。该数据集通过提供详细的判决文本、法律引用、法官意见等信息，为研究者提供了一个丰富的资源库，用于分析法律文本的结构、语义和决策模式。

解决学术问题

stf_regex数据集解决了法律文本分析中的多个关键问题，如判决文本的自动分类、法律引用的提取与关联、法官决策模式的识别等。通过该数据集，研究者能够深入理解法律文本的复杂性，推动法律信息检索、自然语言处理等领域的研究进展。

实际应用

在实际应用中，stf_regex数据集被广泛用于法律信息系统的开发、法律文本的自动化处理、以及法律决策支持系统的构建。例如，律师和法律研究者可以利用该数据集快速检索相关判决，分析法律趋势，提高工作效率。

数据集最近研究