five

joelniklaus/brazilian_court_decisions

收藏
Hugging Face2022-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joelniklaus/brazilian_court_decisions
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含4043个巴西阿拉戈斯州最高法院(TJAL)的法院判决摘要(Ementa)及其元数据的集合。这些判决被标记为7个类别,并且还标注了判决是否一致。数据集支持法律判决预测任务。数据格式为jsonl,包含训练、验证和测试三个数据分割。数据集的主要字段包括案件编号、审判机构、发布日期、法官、判决摘要、判决描述、判决文本、判决标签、一致性文本和一致性标签。数据集创建的目的是为了进一步研究开发预测巴西法院判决的模型,特别是预测判决是否一致的模型。
提供机构:
joelniklaus
原始信息汇总

数据集卡片 for predicting-brazilian-court-decisions

数据集描述

数据集摘要

该数据集包含4043条来自巴西阿拉戈斯州最高法院(TJAL)的Ementa(判决摘要)及其元数据。这些判决根据7个类别以及法官是否一致做出标记。该数据集支持法律判决预测任务。

支持的任务和排行榜

法律判决预测

语言

巴西葡萄牙语

数据集结构

数据实例

文件格式为jsonl,包含三个数据拆分(训练、验证和测试)。

数据字段

数据集包含以下字段:

  • process_number: 法院分配给判决的编号
  • orgao_julgador: 审判机构,包括1ª Câmara Cível, 2ª Câmara Cível, 3ª Câmara Cível, Câmara Criminal, Tribunal Pleno, Seção Especializada Cível
  • publish_date: 判决发布日期(2018年12月14日至2019年4月3日)
  • judge_relator: 司法小组
  • ementa_text: 判决摘要
  • decision_description: 建议输入。对应于ementa_text - judgment_text - unanimity_text。基本统计(单词数量):平均值:119,中位数:88,最小值:12,最大值:1400
  • judgment_text: 用于确定判决标签的文本
  • judgment_label: 主要建议标签。用于训练判决预测模型的标签:
    • no: 上诉被拒绝
    • partial: 部分有利判决
    • yes: 完全有利判决
    • 移除的标签(原数据集中存在):
      • conflito-competencia: 元决策。例如,仅告知法院A应审理此案而非法院B。
      • not-cognized: 上诉未被接受由法院审理
      • prejudicada: 由于上诉者死亡或放弃案件等原因,案件无法审理
  • unanimity_text: 描述判决是否一致的葡萄牙语文本
  • unanimity_label: 次要建议标签。统一标签描述判决是否一致(某些情况下包含not_determined);也可用于模型训练

数据拆分

数据随机拆分为80%训练(3234),10%验证(404),10%测试(405)。

判决

标签分布

judgment train validation test
no 1960 221 234
partial 677 96 93
yes 597 87 78
total 3234 404 405

一致性

在此配置中,所有unanimity_labelnot_determined的案例可以被移除。

标签分布

unanimity_label train validation test
not_determined 1519 193 201
unanimity 1681 205 200
not-unanimity 34 6 4
total 3234 404 405

数据集创建

策划理由

该数据集旨在进一步研究开发能够预测巴西法院判决以及判决是否一致的模型。

源数据

数据从巴西阿拉戈斯州最高法院(TJAL)抓取。

初始数据收集和规范化

“我们开发了一个用于从巴西法院收集数据的网络爬虫。爬虫首先搜索包含法院案件列表的URL [...]。然后,爬虫从这些HTML文件中提取特定案件URL并下载其数据 [...]。接下来,它提取法律案件的元数据和内容,并以CSV文件格式存储 [...]。”(Lage-Freitas et al., 2022)

源语言生产者

源语言生产者可能是律师、法官和其他法律专业人士。

注释

注释过程

数据集未进行注释。

注释者

[需要更多信息]

个人和敏感信息

法院判决可能包含有关个人的敏感信息。

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见的讨论

[需要更多信息]

其他已知限制

请注意,此数据集卡片中提供的信息 refer to 由Joel Niklaus和Veton Matoshi提供的数据集版本。该数据集旨在成为更大基准数据集的一部分。创建包含来自不同来源的几个其他数据集的基准数据集需要后处理。因此,该数据集的结构,包括文件夹结构,可能与原始数据集有很大差异。此外,数据集统计数据与各自论文中给出的数据可能存在差异。建议读者查看转换脚本convert_to_hf_dataset.py,以追溯将原始数据集转换为当前jsonl格式的步骤。有关原始数据集结构的更多信息,请参阅本数据集卡片中提供的参考文献和原始Github存储库和/或网页。

附加信息

数据集策展人

原始数据集策展人和创建者的姓名可在以下参考文献中找到,在引用信息部分。其他更改由Joel Niklaus(Email; Github)和Veton Matoshi(Email; Github)进行。

许可信息

该数据集未提供许可信息。然而,请确保您根据巴西法律使用该数据集。

引用信息

@misc{https://doi.org/10.48550/arxiv.1905.10348, author = {Lage-Freitas, Andr{{e}} and Allende-Cid, H{{e}}ctor and Santana, Orivaldo and de Oliveira-Lage, L{{i}}via}, doi = {10.48550/ARXIV.1905.10348}, keywords = {Computation and Language (cs.CL),FOS: Computer and information sciences,Social and Information Networks (cs.SI)}, publisher = {arXiv}, title = {{Predicting Brazilian court decisions}}, url = {https://arxiv.org/abs/1905.10348}, year = {2019} }

@article{Lage-Freitas2022, author = {Lage-Freitas, Andr{{e}} and Allende-Cid, H{{e}}ctor and Santana, Orivaldo and Oliveira-Lage, L{{i}}via}, doi = {10.7717/peerj-cs.904}, issn = {2376-5992}, journal = {PeerJ. Computer science}, keywords = {Artificial intelligence,Jurimetrics,Law,Legal,Legal NLP,Legal informatics,Legal outcome forecast,Litigation prediction,Machine learning,NLP,Portuguese,Predictive algorithms,judgement prediction}, language = {eng}, month = {mar}, pages = {e904--e904}, publisher = {PeerJ Inc.}, title = {{Predicting Brazilian Court Decisions}}, url = {https://pubmed.ncbi.nlm.nih.gov/35494851 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9044329/}, volume = {8}, year = {2022} }

贡献

感谢@kapllan@joelniklaus添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作