darrow-ai/USClassActions

Name: darrow-ai/USClassActions
Creator: darrow-ai
Published: 2024-01-24 10:00:39
License: 暂无描述

Hugging Face2024-01-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/darrow-ai/USClassActions

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: gpl-3.0 task_categories: - text-classification - zero-shot-classification language: - en tags: - legal - legalnlp - class action - darrow --- ## Dataset Description - **Homepage:** https://www.darrow.ai/ - **Repository:** https://github.com/darrow-labs/ClassActionPrediction - **Paper:** https://arxiv.org/abs/2211.00582 - **Leaderboard:** N/A - **Point of Contact:** [Gila Hayat](mailto:gila@darrow.ai),[Gil Semo](mailto:gil.semo@darrow.ai) #### More Details & Collaborations Feel free to contact us in order to get a larger dataset. We would be happy to collaborate on future works. ### Dataset Summary USClassActions is an English dataset of 3K complaints from the US Federal Court with the respective binarized judgment outcome (Win/Lose). The dataset poses a challenging text classification task. We are happy to share this dataset in order to promote robustness and fairness studies on the critical area of legal NLP. The data was annotated using Darrow.ai proprietary tool. ### Data Instances ```python from datasets import load_dataset dataset = load_dataset('darrow-ai/USClassActions') ``` ### Data Fields `id`: (**int**) a unique identifier of the document \ `target_text`: (**str**) the complaint text \ `verdict`: (**str**) the outcome of the case \ ### Curation Rationale The dataset was curated by Darrow.ai (2022). ### Citation Information *Gil Semo, Dor Bernsohn, Ben Hagag, Gila Hayat, and Joel Niklaus* *ClassActionPrediction: A Challenging Benchmark for Legal Judgment Prediction of Class Action Cases in the US* *Proceedings of the 2022 Natural Legal Language Processing Workshop. Abu Dhabi. 2022* ``` @InProceedings{Darrow-Niklaus-2022, author = {Semo, Gil and Bernsohn, Dor and Hagag, Ben and Hayat, Gila and Niklaus, Joel}, title = {ClassActionPrediction: A Challenging Benchmark for Legal Judgment Prediction of Class Action Cases in the US}, booktitle = {Proceedings of the 2022 Natural Legal Language Processing Workshop}, year = {2022}, location = {Abu Dhabi, EMNLP2022}, } ```

许可证：GPL-3.0 任务类别： - 文本分类 - 零样本分类（zero-shot-classification）语言： - 英语标签： - 法律 - 法律自然语言处理（legalNLP） - 集体诉讼（class action） - Darrow ## 数据集说明 - **主页**：https://www.darrow.ai/ - **代码仓库**：https://github.com/darrow-labs/ClassActionPrediction - **相关论文**：https://arxiv.org/abs/2211.00582 - **排行榜**：无 - **联系人**：[吉拉·哈亚特（Gila Hayat）](mailto:gila@darrow.ai)、[吉尔·塞莫（Gil Semo）](mailto:gil.semo@darrow.ai) #### 更多细节与合作欢迎联系我们以获取更大规模的数据集，我们期待与您合作开展未来研究工作。 ### 数据集概述 USClassActions是一个英语数据集，包含来自美国联邦法院的3000份诉状，附带经过二值化标注的判决结果（胜诉/败诉）。该数据集构成了一项具有挑战性的文本分类任务。我们公开此数据集旨在推动法律自然语言处理这一关键领域的鲁棒性与公平性研究。本数据集通过Darrow.ai的专有工具完成标注。 ### 数据样例 python from datasets import load_dataset dataset = load_dataset('darrow-ai/USClassActions') ### 数据字段 `id`: (**整数型**) 文档的唯一标识符 `target_text`: (**字符串型**) 诉状文本 `verdict`: (**字符串型**) 案件判决结果 ### 数据集构建初衷本数据集由Darrow.ai于2022年构建。 ### 引用信息 *吉尔·塞莫（Gil Semo）、多尔·伯恩松（Dor Bernsohn）、本·哈加格（Ben Hagag）、吉拉·哈亚特（Gila Hayat）以及乔尔·尼克劳（Joel Niklaus）* *《ClassActionPrediction：面向美国集体诉讼案件法律判决预测的挑战性基准数据集》* *2022年自然法律语言处理研讨会论文集，阿布扎比，2022年* @InProceedings{Darrow-Niklaus-2022, author = {Semo, Gil and Bernsohn, Dor and Hagag, Ben and Hayat, Gila and Niklaus, Joel}, title = {ClassActionPrediction: A Challenging Benchmark for Legal Judgment Prediction of Class Action Cases in the US}, booktitle = {Proceedings of the 2022 Natural Legal Language Processing Workshop}, year = {2022}, location = {Abu Dhabi, EMNLP2022}, }

提供机构：

darrow-ai

原始信息汇总

数据集概述

数据集名称: USClassActions
语言: 英语
任务类别:

文本分类
零样本分类
标签:
法律
法律NLP
集体诉讼
Darrow
许可: GPL-3.0

数据集详细信息

数据来源: 美国联邦法院
数据规模: 3000份投诉及其二元化判决结果（胜/败）
数据注释工具: Darrow.ai专有工具
数据用途: 促进法律NLP领域的鲁棒性和公平性研究

数据实例结构

id: 文档的唯一标识符（整数）
target_text: 投诉文本（字符串）
verdict: 案件结果（字符串）

数据集创建理由

由Darrow.ai于2022年精心策划，旨在提供一个挑战性的法律判决预测基准。

引用信息

@InProceedings{Darrow-Niklaus-2022, author = {Semo, Gil and Bernsohn, Dor and Hagag, Ben and Hayat, Gila and Niklaus, Joel}, title = {ClassActionPrediction: A Challenging Benchmark for Legal Judgment Prediction of Class Action Cases in the US}, booktitle = {Proceedings of the 2022 Natural Legal Language Processing Workshop}, year = {2022}, location = {Abu Dhabi, EMNLP2022}, }

搜集汇总

数据集介绍

构建方式

在法学与自然语言处理交叉领域，数据集的构建需兼顾法律文本的专业性与机器学习任务的适配性。USClassActions数据集由Darrow.ai于2022年精心构建，其核心内容源自美国联邦法院的集体诉讼案件投诉文件。通过专有的法律文本处理工具，研究团队从海量司法文档中筛选出三千份具有代表性的投诉文本，并依据案件最终判决结果，对每份文本进行了二元化标注，形成“胜诉”或“败诉”的类别标签。这一构建过程不仅确保了数据来源的权威性与时效性，也为后续的模型训练提供了结构清晰、标注一致的高质量语料。

特点

该数据集在法学自然语言处理领域展现出鲜明的特色。其文本内容全部来源于真实的集体诉讼法律文书，语言风格严谨专业，蕴含复杂的法律逻辑与事实陈述，为模型理解法律语义提供了深度挑战。数据规模虽精炼但覆盖广泛，三千个实例均配有明确的判决结果，构成了一个典型的二元分类任务基准。尤为重要的是，数据集专注于集体诉讼这一特定法律程序，使得研究能够深入探讨此类案件的独特语言模式与判决规律，为法律人工智能的鲁棒性与公平性研究奠定了坚实基础。

使用方法

对于希望利用该数据集的研究者而言，其使用方法便捷而规范。通过Hugging Face的`datasets`库，用户可直接调用`load_dataset('darrow-ai/USClassActions')`指令加载数据。加载后的数据集包含`id`、`target_text`和`verdict`三个核心字段，分别对应文档唯一标识符、投诉文本内容以及案件判决结果。研究者可据此开展文本分类或零样本分类等实验，将`target_text`作为模型输入，`verdict`作为预测目标，评估模型在法律判决预测任务上的性能。数据集附有详细的论文与联系方式，便于学者进行深入分析与潜在合作。

背景与挑战

背景概述

在法律自然语言处理领域，集体诉讼案件的判决预测一直是一项复杂且具有重要实践价值的任务。2022年，由Darrow.ai的研究团队创建的USClassActions数据集应运而生，旨在为这一领域提供高质量的基准数据。该数据集收录了来自美国联邦法院的3000份诉讼投诉文本，并标注了相应的二元化判决结果（胜诉或败诉）。其核心研究问题聚焦于如何通过文本分类技术，准确预测集体诉讼案件的法律结果，从而推动法律人工智能在司法决策支持方面的应用。该数据集的发布，不仅丰富了法律NLP领域的资源，也为研究模型鲁棒性与公平性提供了关键实验平台，对促进法律科技的创新发展产生了积极影响。

当前挑战

USClassActions数据集所针对的领域问题——集体诉讼判决预测，本身面临多重挑战。法律文本通常具有高度专业化、结构复杂且语义微妙的特点，模型需准确理解冗长投诉中的关键法律论点与事实陈述，才能做出可靠预测。此外，法律判决往往受到隐性社会因素与法官主观判断的影响，这增加了构建普适性预测模型的难度。在数据集构建过程中，挑战同样显著：原始法律文档的获取与清洗需克服隐私与格式异构性问题；而标注工作依赖于专业法律知识，必须确保判决结果的准确性与一致性，同时平衡数据规模与标注成本之间的矛盾，这些因素共同构成了该数据集在研究与实用化道路上的主要障碍。

常用场景

经典使用场景

在法律自然语言处理领域，USClassActions数据集为集体诉讼案件判决预测提供了关键基准。该数据集包含三千份美国联邦法院的投诉文本及其二元化判决结果，常被用于训练和评估文本分类模型，以预测诉讼案件的胜败走向。研究者通过分析投诉文本的语言特征与法律逻辑，探索模型在复杂法律语境下的理解能力，推动了法律智能分析技术的发展。

实际应用

在实际应用中，USClassActions数据集可服务于法律科技工具的研发，例如自动化案件评估系统、法律风险预警平台以及律师辅助决策软件。法律机构与科技公司能够利用该数据集训练模型，初步筛选潜在胜诉案件，优化资源分配，提升法律服务的效率与可及性，同时为公益法律项目提供数据驱动的洞察支持。

衍生相关工作

围绕该数据集衍生的经典工作包括基于深度学习的法律文本分类框架、针对法律领域适配的预训练语言模型，以及结合因果推理的判决归因分析。相关研究不仅拓展了法律NLP的技术边界，还催生了多个专注于公平性评估与偏差缓解的算法，为后续构建更健全的法律AI生态系统提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集