CivilSum

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/ra-MANUJ-an/CivilSum

下载链接

链接失效反馈

官方服务：

资源简介：

CivilSum是一个包含23,350个印度最高法院和其他印度高等法院法律案例裁决的综合数据集，每个案例都配有由人类编写的摘要。该数据集不仅因其大量的法律裁决而突出，还因其提供的简短且更具抽象性的摘要，为法律摘要生成设立了一个挑战性的基准。

CivilSum is a comprehensive dataset comprising 23,350 legal case judgments from the Supreme Court of India and other Indian High Courts, each accompanied by a human-written summary. This dataset stands out not only for its extensive collection of legal judgments but also for providing concise and more abstractive summaries, setting a challenging benchmark for legal summarization.

创建时间：

2024-04-02

原始信息汇总

数据集概述

数据集名称

CivilSum

数据集描述

CivilSum 是一个包含23,350个印度最高法院和其他印度高等法院法律案例决策的综合数据集，每个案例决策都配有由人类编写的摘要。该数据集不仅因其大量的法律决策而突出，还因其提供的简短和更具抽象性的摘要而成为法律文档摘要的一个挑战性基准。

数据集内容

数据分割：
- 训练集 (train.csv): 包含21,015个样本。
- 验证集 (validation.csv): 包含1,168个样本。
- 测试集 (test.csv): 包含1,167个样本。

数据集用途

该数据集旨在促进法律文档摘要方法的研究和评估。

数据集版权和许可

数据集根据 CC BY-NC-SA 4.0 许可发布，仅限于学术或教育研究或学习目的的使用。

搜集汇总

数据集介绍

构建方式

CivilSum数据集的构建基于印度最高法院及其他高等法院的23,350份法律判决书，这些判决书与人工撰写的摘要配对。通过从公开的法律数据库中收集判决书，并结合专业法律人士编写的高质量摘要，CivilSum旨在为法律文档摘要任务提供一个全面且具有挑战性的基准。

特点

CivilSum数据集的显著特点在于其规模庞大，涵盖了超过23,000份法律判决书，且每份判决书均配有简短且更具抽象性的摘要。这种设计不仅提升了数据集的多样性，还为法律摘要任务提供了更具挑战性的评估标准，使其成为法律领域摘要研究的重要资源。

使用方法

CivilSum数据集可通过提供的链接下载，分为训练集、验证集和测试集，分别包含21,015、1,168和1,167个样本。用户可利用数据集进行法律文档摘要的实验，支持使用Longformer、FactorSum和Llama-2等模型进行复现实验。数据集的使用需遵循CC BY-NC-SA 4.0许可协议，确保仅用于学术或教育研究。

背景与挑战

背景概述

CivilSum数据集由SIGIR 2024会议上的研究论文《CivilSum: A Dataset for Abstractive Summarization of Court Decisions》引入，旨在推动法律文档摘要技术的研究与评估。该数据集由印度最高法院及其他高等法院的23,350份法律判决组成，并配有人工撰写的摘要。CivilSum不仅因其庞大的数据量而脱颖而出，更因其提供的摘要具有更高的抽象性和简洁性，成为法律摘要领域的挑战性基准。该数据集的创建旨在解决法律文档摘要中的复杂性问题，并为相关研究提供丰富的资源。

当前挑战

CivilSum数据集面临的挑战主要集中在法律文档摘要的复杂性和数据构建过程中的技术难题。首先，法律文档通常具有高度专业性和复杂的结构，如何从中提取关键信息并生成简洁且准确的摘要是一个重大挑战。其次，数据集的构建过程中，如何确保摘要的抽象性和简洁性，同时保持法律文本的准确性和完整性，也是一大难题。此外，法律文档的版权问题和数据使用的限制性条件，进一步增加了数据集的使用难度和研究复杂性。

常用场景

经典使用场景

CivilSum数据集的经典使用场景主要集中在法律文档的自动摘要生成领域。该数据集包含了来自印度最高法院及其他高等法院的23,350份法律判决，每份判决均配有专业人士撰写的人工摘要。这一特性使得CivilSum成为法律摘要生成任务中的重要基准，尤其适用于评估模型在生成简洁且抽象性强的法律摘要方面的能力。

衍生相关工作

CivilSum数据集的发布催生了一系列相关的经典工作。例如，研究人员基于该数据集开发了多种法律摘要生成模型，如Longformer、FactorSum和Llama-2，这些模型在法律文本处理领域取得了显著进展。此外，CivilSum还激发了对法律文本摘要生成任务的深入研究，推动了法律信息检索和自然语言处理技术的交叉应用。

数据集最近研究