joelniklaus/brazilian_court_decisions
收藏数据集卡片 for predicting-brazilian-court-decisions
数据集描述
数据集摘要
该数据集包含4043条来自巴西阿拉戈斯州最高法院(TJAL)的Ementa(判决摘要)及其元数据。这些判决根据7个类别以及法官是否一致做出标记。该数据集支持法律判决预测任务。
支持的任务和排行榜
法律判决预测
语言
巴西葡萄牙语
数据集结构
数据实例
文件格式为jsonl,包含三个数据拆分(训练、验证和测试)。
数据字段
数据集包含以下字段:
process_number: 法院分配给判决的编号orgao_julgador: 审判机构,包括1ª Câmara Cível, 2ª Câmara Cível, 3ª Câmara Cível, Câmara Criminal, Tribunal Pleno, Seção Especializada Cívelpublish_date: 判决发布日期(2018年12月14日至2019年4月3日)judge_relator: 司法小组ementa_text: 判决摘要decision_description: 建议输入。对应于ementa_text - judgment_text - unanimity_text。基本统计(单词数量):平均值:119,中位数:88,最小值:12,最大值:1400judgment_text: 用于确定判决标签的文本judgment_label: 主要建议标签。用于训练判决预测模型的标签:no: 上诉被拒绝partial: 部分有利判决yes: 完全有利判决- 移除的标签(原数据集中存在):
conflito-competencia: 元决策。例如,仅告知法院A应审理此案而非法院B。not-cognized: 上诉未被接受由法院审理prejudicada: 由于上诉者死亡或放弃案件等原因,案件无法审理
unanimity_text: 描述判决是否一致的葡萄牙语文本unanimity_label: 次要建议标签。统一标签描述判决是否一致(某些情况下包含not_determined);也可用于模型训练
数据拆分
数据随机拆分为80%训练(3234),10%验证(404),10%测试(405)。
判决
标签分布
| judgment | train | validation | test |
|---|---|---|---|
| no | 1960 | 221 | 234 |
| partial | 677 | 96 | 93 |
| yes | 597 | 87 | 78 |
| total | 3234 | 404 | 405 |
一致性
在此配置中,所有unanimity_label为not_determined的案例可以被移除。
标签分布
| unanimity_label | train | validation | test |
|---|---|---|---|
| not_determined | 1519 | 193 | 201 |
| unanimity | 1681 | 205 | 200 |
| not-unanimity | 34 | 6 | 4 |
| total | 3234 | 404 | 405 |
数据集创建
策划理由
该数据集旨在进一步研究开发能够预测巴西法院判决以及判决是否一致的模型。
源数据
数据从巴西阿拉戈斯州最高法院(TJAL)抓取。
初始数据收集和规范化
“我们开发了一个用于从巴西法院收集数据的网络爬虫。爬虫首先搜索包含法院案件列表的URL [...]。然后,爬虫从这些HTML文件中提取特定案件URL并下载其数据 [...]。接下来,它提取法律案件的元数据和内容,并以CSV文件格式存储 [...]。”(Lage-Freitas et al., 2022)
源语言生产者
源语言生产者可能是律师、法官和其他法律专业人士。
注释
注释过程
数据集未进行注释。
注释者
[需要更多信息]
个人和敏感信息
法院判决可能包含有关个人的敏感信息。
使用数据的注意事项
数据集的社会影响
[需要更多信息]
偏见的讨论
[需要更多信息]
其他已知限制
请注意,此数据集卡片中提供的信息 refer to 由Joel Niklaus和Veton Matoshi提供的数据集版本。该数据集旨在成为更大基准数据集的一部分。创建包含来自不同来源的几个其他数据集的基准数据集需要后处理。因此,该数据集的结构,包括文件夹结构,可能与原始数据集有很大差异。此外,数据集统计数据与各自论文中给出的数据可能存在差异。建议读者查看转换脚本convert_to_hf_dataset.py,以追溯将原始数据集转换为当前jsonl格式的步骤。有关原始数据集结构的更多信息,请参阅本数据集卡片中提供的参考文献和原始Github存储库和/或网页。
附加信息
数据集策展人
原始数据集策展人和创建者的姓名可在以下参考文献中找到,在引用信息部分。其他更改由Joel Niklaus(Email; Github)和Veton Matoshi(Email; Github)进行。
许可信息
该数据集未提供许可信息。然而,请确保您根据巴西法律使用该数据集。
引用信息
@misc{https://doi.org/10.48550/arxiv.1905.10348, author = {Lage-Freitas, Andr{{e}} and Allende-Cid, H{{e}}ctor and Santana, Orivaldo and de Oliveira-Lage, L{{i}}via}, doi = {10.48550/ARXIV.1905.10348}, keywords = {Computation and Language (cs.CL),FOS: Computer and information sciences,Social and Information Networks (cs.SI)}, publisher = {arXiv}, title = {{Predicting Brazilian court decisions}}, url = {https://arxiv.org/abs/1905.10348}, year = {2019} }
@article{Lage-Freitas2022, author = {Lage-Freitas, Andr{{e}} and Allende-Cid, H{{e}}ctor and Santana, Orivaldo and Oliveira-Lage, L{{i}}via}, doi = {10.7717/peerj-cs.904}, issn = {2376-5992}, journal = {PeerJ. Computer science}, keywords = {Artificial intelligence,Jurimetrics,Law,Legal,Legal NLP,Legal informatics,Legal outcome forecast,Litigation prediction,Machine learning,NLP,Portuguese,Predictive algorithms,judgement prediction}, language = {eng}, month = {mar}, pages = {e904--e904}, publisher = {PeerJ Inc.}, title = {{Predicting Brazilian Court Decisions}}, url = {https://pubmed.ncbi.nlm.nih.gov/35494851 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9044329/}, volume = {8}, year = {2022} }
贡献
感谢@kapllan和@joelniklaus添加此数据集。



