CLC-UKET
收藏arXiv2024-09-12 更新2024-09-14 收录
下载链接:
https://www.repository.cam.ac.uk/items/15989444-8895-4cee-9966-c3c8a2872cf7
下载链接
链接失效反馈官方服务:
资源简介:
CLC-UKET数据集是由剑桥大学法学院和计算机科学与技术系联合创建的,旨在为英国就业法庭(UKET)的案件结果预测提供基准。该数据集包含约19,090个UKET案件的判决及其元数据,涵盖了事实、主张、法律引用、案件结果等多方面的详细法律注释。数据集的创建过程结合了人工和自动注释,特别是利用了大型语言模型(LLM)进行自动注释,以减轻手动注释的负担。CLC-UKET数据集主要应用于法律领域的就业相关纠纷解决,旨在通过预测案件结果来提高司法系统的透明度和效率。
The CLC-UKET dataset was jointly created by the Faculty of Law and the Department of Computer Science and Technology at the University of Cambridge, aiming to provide a benchmark for case outcome prediction of UK Employment Tribunals (UKET). This dataset contains approximately 19,090 judgments and their corresponding metadata of UKET cases, covering detailed legal annotations across multiple aspects including case facts, claims, legal citations, and case outcomes. The development of the CLC-UKET dataset combines manual and automated annotation processes, with Large Language Models (LLMs) specifically employed for automated annotation to reduce the burden of manual annotation work. The CLC-UKET dataset is primarily applied to employment-related dispute resolution in the legal field, with the objective of improving the transparency and efficiency of the judicial system by predicting case outcomes.
提供机构:
剑桥大学
创建时间:
2024-09-12
搜集汇总
数据集介绍

构建方式
CLC-UKET数据集的构建基于Cambridge Law Corpus (CLC),涵盖了2011年至2023年间英国就业法庭(UKET)的19,090个案例。为减轻手动标注的负担,研究采用了大型语言模型(LLM)进行自动标注。数据集分为两部分:CLC-UKETanno包含详细的法律标注,涵盖事实、诉求、法律条文引用、先例引用、案件结果、理由和管辖代码;CLC-UKETpred则专门用于多类别案件结果预测任务。
使用方法
CLC-UKET数据集主要用于英国就业法庭案件结果的预测任务。研究者可以使用该数据集训练和评估预测模型,输入包括案件的事实和诉求,输出则为案件结果的分类标签。数据集的详细标注和多样的案件结果标签使得模型能够学习复杂的法律推理和判断过程,从而提高预测的准确性和可靠性。
背景与挑战
背景概述
近年来,自然语言处理技术在法律领域的应用引起了广泛关注,特别是在法律争议结果预测方面。CLC-UKET数据集由剑桥大学计算机科学与技术系和法学院的研究人员共同开发,旨在通过预测英国就业法庭(UKET)的案件结果,探索技术创新与司法公正的交汇点。该数据集包含约19,000个UKET案件及其元数据,涵盖事实、诉求、法律条文引用、先例引用、案件结果、理由和管辖代码等全面法律标注。CLC-UKET数据集的创建不仅解决了大规模手动标注的挑战,还通过使用大型语言模型(LLM)进行自动标注,显著提升了数据集的质量和效率。该数据集的发布为就业相关争议解决提供了宝贵的基准,推动了法律领域的人工智能研究。
当前挑战
CLC-UKET数据集在构建过程中面临多项挑战。首先,法律领域的文本复杂且专业性强,自动标注的准确性受到限制,需要进一步优化以提高标注质量。其次,数据集中的案件涉及多种法律问题,如不公平解雇、歧视和违约等,预测模型需具备处理多类别问题的能力。此外,UKET案件的判决结构相对清晰,但缺乏正式的撰写风格规则,导致判决文本的一致性较差,增加了模型理解和预测的难度。最后,数据集的时间跨度较长,涵盖了2011年至2023年的案件,法律和程序的演变可能影响预测模型的准确性。这些挑战要求研究者在模型设计和数据处理上进行深入探索和创新。
常用场景
经典使用场景
CLC-UKET数据集的经典应用场景在于预测英国就业法庭(UKET)的案件结果。通过利用该数据集中的大量案件及其详细的法律注释,研究人员可以训练和验证多种机器学习模型,特别是基于Transformer的模型,以实现对案件结果的多类别预测。这种预测任务不仅有助于评估模型的性能,还能为法律领域的自然语言处理技术提供一个重要的基准。
解决学术问题
CLC-UKET数据集解决了法律领域中一个重要的学术问题,即如何利用大规模的法律文本数据来预测案件结果。通过提供详细的案件事实、主张、法律条文引用、先例引用、案件结果等信息,该数据集使得研究人员能够开发和测试复杂的预测模型,从而推动法律预测技术的发展。这不仅有助于提高法律决策的透明度和效率,还为法律人工智能的研究提供了宝贵的资源。
实际应用
在实际应用中,CLC-UKET数据集可以用于辅助法律从业者进行案件结果的初步预测,从而帮助他们更好地准备案件和制定策略。此外,该数据集还可以用于培训法律专业的学生和律师,使他们能够通过机器学习模型来分析和理解复杂的法律案例。通过这种方式,CLC-UKET数据集不仅提升了法律实践的效率,还促进了法律教育的发展。
数据集最近研究
最新研究方向
在法律科技领域,CLC-UKET数据集的最新研究方向聚焦于利用大型语言模型(LLM)进行自动化标注,以减轻大规模手动标注的负担。该数据集包含了约19,000个英国就业法庭(UKET)案例及其元数据,通过LLM进行自动标注,涵盖了事实、诉求、法律条文引用、先例引用、案件结果、理由及管辖代码等详细法律注释。研究者们通过该数据集探索了多类别案件结果预测任务,并收集了人类预测结果以建立模型性能的基准。实证结果表明,微调的Transformer模型在UKET预测任务中优于零样本和少样本LLM。此外,通过将任务相关信息整合到少样本示例中,可以显著提升零样本LLM的性能。CLC-UKET数据集及其相关研究为就业相关纠纷解决提供了宝贵的基准,推动了法律领域自然语言处理技术的发展。
相关研究论文
- 1The CLC-UKET Dataset: Benchmarking Case Outcome Prediction for the UK Employment Tribunal剑桥大学 · 2024年
以上内容由遇见数据集搜集并总结生成



