five

CASESUMM

收藏
arXiv2024-12-31 更新2025-01-06 收录
下载链接:
https://huggingface.co/datasets/ChicagoHAI/CaseSumm
下载链接
链接失效反馈
官方服务:
资源简介:
CASESUMM是由芝加哥大学研究团队创建的一个大规模法律领域长文本摘要数据集,包含了25,600条美国最高法院的意见书及其官方摘要(syllabuses),时间跨度为1815年至2019年。该数据集是目前最大的公开法律案例摘要数据集,涵盖了超过200年的最高法院判决。数据集的内容包括每个案件的事实、程序历史、法律问题及其解答,摘要由法院雇佣的律师撰写并经法官批准,具有较高的权威性。数据集的创建过程涉及从多个来源(如Public Resource Org和国会图书馆)提取和清理意见书及摘要,并通过OCR技术和正则表达式进行结构化处理。该数据集主要用于评估大语言模型在法律领域的摘要生成能力,旨在解决长文本摘要任务中的复杂性和高要求问题。
提供机构:
芝加哥大学
创建时间:
2024-12-31
搜集汇总
数据集介绍
main_image_url
构建方式
CASESUMM数据集的构建基于美国最高法院(SCOTUS)的判决意见及其官方摘要(称为“syllabuses”)。数据来源包括Public Resource Org的在线档案和Super-SCOTUS数据集,涵盖了从1815年至2019年的25,600个案例。通过从美国国会图书馆托管的PDF文件中提取syllabuses,研究人员设计了一套复杂的正则表达式和计算机视觉算法,以确保摘要的准确提取。尽管面临OCR数据质量低和格式变化等挑战,CASESUMM通过多步骤处理流程,确保了数据的高质量。
特点
CASESUMM数据集的特点在于其规模大、时间跨度长,并且包含了高质量的官方摘要。该数据集不仅覆盖了超过两个世纪的案例,还反映了法律摘要的长度和压缩率的变化。每个案例的平均判决意见长度为2,612字,而摘要平均为314字,压缩率约为21.8%。此外,CASESUMM还提供了对模型生成摘要的自动和人工评估,揭示了自动评估与人工评估之间的差异,特别是在法律领域的高风险环境中。
使用方法
CASESUMM数据集的使用方法主要包括法律文本摘要的模型训练和评估。研究人员可以使用该数据集进行长文本摘要任务,特别是针对法律领域的复杂文本。数据集中的syllabuses作为监督信号,用于训练和评估模型生成的摘要。通过自动评估指标(如ROUGE和BERTScore)和人工专家评估,研究人员可以比较不同模型生成的摘要质量。此外,CASESUMM还提供了对模型生成的摘要进行错误分析的机会,特别是在识别事实错误和引用错误方面。
背景与挑战
背景概述
CASESUMM数据集由芝加哥大学的研究团队于2024年推出,旨在为法律领域的长文本摘要任务提供大规模、高质量的基准数据。该数据集包含了25,600份美国最高法院(SCOTUS)的判决意见及其官方摘要(称为“syllabuses”),时间跨度从1815年至2019年。CASESUMM的创建填补了法律领域长文本摘要数据集的空白,尤其是其覆盖的时间范围和规模使其成为该领域的重要资源。该数据集不仅为法律文本的自动摘要研究提供了丰富的素材,还通过引入专家人工评估,揭示了自动评估与人工评估之间的差异,进一步推动了法律文本摘要评估方法的发展。
当前挑战
CASESUMM数据集面临的主要挑战包括两个方面。首先,法律文本的复杂性使得摘要生成任务尤为困难。法律文本通常包含复杂的法律推理、案例事实和程序历史,要求摘要模型具备高度的语义理解和推理能力。其次,数据集的构建过程也面临诸多挑战。由于判决意见的格式和风格随时间变化,且部分历史文档的扫描质量较低,导致从PDF中提取摘要的过程异常复杂。此外,自动评估方法(如ROUGE和BERTScore)与人工评估结果之间的不一致性,进一步凸显了当前自动评估方法在捕捉摘要质量方面的局限性,尤其是在高风险的复杂领域中,人工评估仍然不可或缺。
常用场景
经典使用场景
CASESUMM数据集在长文本摘要领域具有广泛的应用,尤其是在法律文本的自动摘要任务中。该数据集包含了25,600份美国最高法院的意见书及其官方摘要(称为“syllabuses”),这些摘要由法院的律师撰写并经法官批准,因此被视为法律文本摘要的黄金标准。CASESUMM的经典使用场景包括评估大型语言模型(LLMs)在长文本摘要任务中的表现,尤其是在法律领域中的复杂文本处理能力。通过该数据集,研究人员可以测试模型在生成法律文本摘要时的准确性、一致性和信息覆盖率。
解决学术问题
CASESUMM数据集解决了长文本摘要领域中的多个关键学术问题。首先,它填补了法律领域长文本摘要数据集的空白,提供了从1815年至2019年的最高法院意见书及其摘要,涵盖了超过两个世纪的法律文本。其次,该数据集通过提供高质量的官方摘要,解决了长文本摘要任务中缺乏可靠参考摘要的问题。此外,CASESUMM还揭示了自动评估指标(如ROUGE和BERTScore)与人类评估之间的差异,强调了在法律等高复杂领域中进行人类评估的重要性。这些发现为未来的摘要评估方法提供了重要的参考。
衍生相关工作
CASESUMM数据集的发布推动了多个相关研究领域的发展。首先,基于该数据集的研究揭示了大型语言模型(如GPT-4和Mistral)在法律文本摘要任务中的表现差异,尤其是在生成摘要的准确性和一致性方面。其次,该数据集还催生了针对法律文本摘要的自动评估方法的研究,如基于LLM的评估工具G-Eval的开发。此外,CASESUMM还为法律领域的自然语言处理任务提供了新的研究方向,例如法律文本的自动分类、案例结果预测等。这些衍生工作进一步扩展了CASESUMM在学术研究和实际应用中的影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作