CivilSum
收藏github2024-05-20 更新2024-05-31 收录
下载链接:
https://github.com/ra-MANUJ-an/CivilSum
下载链接
链接失效反馈官方服务:
资源简介:
CivilSum是一个包含23,350个印度最高法院和其他印度高等法院法律案例裁决的综合数据集,每个案例都配有由人类编写的摘要。该数据集不仅因其大量的法律裁决而突出,还因其提供的简短且更具抽象性的摘要,为法律摘要生成设立了一个挑战性的基准。
CivilSum is a comprehensive dataset comprising 23,350 legal case judgments from the Supreme Court of India and other Indian High Courts, each accompanied by a human-written summary. This dataset stands out not only for its extensive collection of legal judgments but also for providing concise and more abstractive summaries, setting a challenging benchmark for legal summarization.
创建时间:
2024-04-02
原始信息汇总
数据集概述
数据集名称
- CivilSum
数据集描述
- CivilSum 是一个包含23,350个印度最高法院和其他印度高等法院法律案例决策的综合数据集,每个案例决策都配有由人类编写的摘要。该数据集不仅因其大量的法律决策而突出,还因其提供的简短和更具抽象性的摘要而成为法律文档摘要的一个挑战性基准。
数据集内容
- 数据分割:
- 训练集 (
train.csv): 包含21,015个样本。 - 验证集 (
validation.csv): 包含1,168个样本。 - 测试集 (
test.csv): 包含1,167个样本。
- 训练集 (
数据集用途
- 该数据集旨在促进法律文档摘要方法的研究和评估。
数据集版权和许可
- 数据集根据 CC BY-NC-SA 4.0 许可发布,仅限于学术或教育研究或学习目的的使用。
搜集汇总
数据集介绍

构建方式
CivilSum数据集的构建基于印度最高法院及其他高等法院的23,350份法律判决书,这些判决书与人工撰写的摘要配对。通过从公开的法律数据库中收集判决书,并结合专业法律人士编写的高质量摘要,CivilSum旨在为法律文档摘要任务提供一个全面且具有挑战性的基准。
特点
CivilSum数据集的显著特点在于其规模庞大,涵盖了超过23,000份法律判决书,且每份判决书均配有简短且更具抽象性的摘要。这种设计不仅提升了数据集的多样性,还为法律摘要任务提供了更具挑战性的评估标准,使其成为法律领域摘要研究的重要资源。
使用方法
CivilSum数据集可通过提供的链接下载,分为训练集、验证集和测试集,分别包含21,015、1,168和1,167个样本。用户可利用数据集进行法律文档摘要的实验,支持使用Longformer、FactorSum和Llama-2等模型进行复现实验。数据集的使用需遵循CC BY-NC-SA 4.0许可协议,确保仅用于学术或教育研究。
背景与挑战
背景概述
CivilSum数据集由SIGIR 2024会议上的研究论文《CivilSum: A Dataset for Abstractive Summarization of Court Decisions》引入,旨在推动法律文档摘要技术的研究与评估。该数据集由印度最高法院及其他高等法院的23,350份法律判决组成,并配有人工撰写的摘要。CivilSum不仅因其庞大的数据量而脱颖而出,更因其提供的摘要具有更高的抽象性和简洁性,成为法律摘要领域的挑战性基准。该数据集的创建旨在解决法律文档摘要中的复杂性问题,并为相关研究提供丰富的资源。
当前挑战
CivilSum数据集面临的挑战主要集中在法律文档摘要的复杂性和数据构建过程中的技术难题。首先,法律文档通常具有高度专业性和复杂的结构,如何从中提取关键信息并生成简洁且准确的摘要是一个重大挑战。其次,数据集的构建过程中,如何确保摘要的抽象性和简洁性,同时保持法律文本的准确性和完整性,也是一大难题。此外,法律文档的版权问题和数据使用的限制性条件,进一步增加了数据集的使用难度和研究复杂性。
常用场景
经典使用场景
CivilSum数据集的经典使用场景主要集中在法律文档的自动摘要生成领域。该数据集包含了来自印度最高法院及其他高等法院的23,350份法律判决,每份判决均配有专业人士撰写的人工摘要。这一特性使得CivilSum成为法律摘要生成任务中的重要基准,尤其适用于评估模型在生成简洁且抽象性强的法律摘要方面的能力。
衍生相关工作
CivilSum数据集的发布催生了一系列相关的经典工作。例如,研究人员基于该数据集开发了多种法律摘要生成模型,如Longformer、FactorSum和Llama-2,这些模型在法律文本处理领域取得了显著进展。此外,CivilSum还激发了对法律文本摘要生成任务的深入研究,推动了法律信息检索和自然语言处理技术的交叉应用。
数据集最近研究
最新研究方向
在法律文本摘要领域,CivilSum数据集的引入为法律文档摘要研究提供了新的挑战与机遇。该数据集不仅包含了来自印度最高法院和其他高等法院的23,350份法律判决,还提供了更为抽象和简洁的人工摘要,这使得其在法律摘要任务中成为一个极具挑战性的基准。近年来,研究者们正致力于探索如何利用先进的自然语言处理技术,如Longformer、FactorSum和Llama-2,来提升法律文档摘要的准确性和效率。这些技术的应用不仅推动了法律文本处理的前沿发展,也为法律领域的自动化和智能化提供了重要支持。CivilSum的发布,标志着法律文本摘要研究进入了一个新的阶段,其对于法律信息检索和自动化法律分析的影响深远。
以上内容由遇见数据集搜集并总结生成



