five

CLC-UKET|法律预测数据集|就业纠纷数据集

收藏
arXiv2024-09-12 更新2024-09-14 收录
法律预测
就业纠纷
下载链接:
https://www.repository.cam.ac.uk/items/15989444-8895-4cee-9966-c3c8a2872cf7
下载链接
链接失效反馈
资源简介:
CLC-UKET数据集是由剑桥大学法学院和计算机科学与技术系联合创建的,旨在为英国就业法庭(UKET)的案件结果预测提供基准。该数据集包含约19,090个UKET案件的判决及其元数据,涵盖了事实、主张、法律引用、案件结果等多方面的详细法律注释。数据集的创建过程结合了人工和自动注释,特别是利用了大型语言模型(LLM)进行自动注释,以减轻手动注释的负担。CLC-UKET数据集主要应用于法律领域的就业相关纠纷解决,旨在通过预测案件结果来提高司法系统的透明度和效率。
提供机构:
剑桥大学
创建时间:
2024-09-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
CLC-UKET数据集的构建基于Cambridge Law Corpus (CLC),涵盖了2011年至2023年间英国就业法庭(UKET)的19,090个案例。为减轻手动标注的负担,研究采用了大型语言模型(LLM)进行自动标注。数据集分为两部分:CLC-UKETanno包含详细的法律标注,涵盖事实、诉求、法律条文引用、先例引用、案件结果、理由和管辖代码;CLC-UKETpred则专门用于多类别案件结果预测任务。
使用方法
CLC-UKET数据集主要用于英国就业法庭案件结果的预测任务。研究者可以使用该数据集训练和评估预测模型,输入包括案件的事实和诉求,输出则为案件结果的分类标签。数据集的详细标注和多样的案件结果标签使得模型能够学习复杂的法律推理和判断过程,从而提高预测的准确性和可靠性。
背景与挑战
背景概述
近年来,自然语言处理技术在法律领域的应用引起了广泛关注,特别是在法律争议结果预测方面。CLC-UKET数据集由剑桥大学计算机科学与技术系和法学院的研究人员共同开发,旨在通过预测英国就业法庭(UKET)的案件结果,探索技术创新与司法公正的交汇点。该数据集包含约19,000个UKET案件及其元数据,涵盖事实、诉求、法律条文引用、先例引用、案件结果、理由和管辖代码等全面法律标注。CLC-UKET数据集的创建不仅解决了大规模手动标注的挑战,还通过使用大型语言模型(LLM)进行自动标注,显著提升了数据集的质量和效率。该数据集的发布为就业相关争议解决提供了宝贵的基准,推动了法律领域的人工智能研究。
当前挑战
CLC-UKET数据集在构建过程中面临多项挑战。首先,法律领域的文本复杂且专业性强,自动标注的准确性受到限制,需要进一步优化以提高标注质量。其次,数据集中的案件涉及多种法律问题,如不公平解雇、歧视和违约等,预测模型需具备处理多类别问题的能力。此外,UKET案件的判决结构相对清晰,但缺乏正式的撰写风格规则,导致判决文本的一致性较差,增加了模型理解和预测的难度。最后,数据集的时间跨度较长,涵盖了2011年至2023年的案件,法律和程序的演变可能影响预测模型的准确性。这些挑战要求研究者在模型设计和数据处理上进行深入探索和创新。
常用场景
经典使用场景
CLC-UKET数据集的经典应用场景在于预测英国就业法庭(UKET)的案件结果。通过利用该数据集中的大量案件及其详细的法律注释,研究人员可以训练和验证多种机器学习模型,特别是基于Transformer的模型,以实现对案件结果的多类别预测。这种预测任务不仅有助于评估模型的性能,还能为法律领域的自然语言处理技术提供一个重要的基准。
解决学术问题
CLC-UKET数据集解决了法律领域中一个重要的学术问题,即如何利用大规模的法律文本数据来预测案件结果。通过提供详细的案件事实、主张、法律条文引用、先例引用、案件结果等信息,该数据集使得研究人员能够开发和测试复杂的预测模型,从而推动法律预测技术的发展。这不仅有助于提高法律决策的透明度和效率,还为法律人工智能的研究提供了宝贵的资源。
实际应用
在实际应用中,CLC-UKET数据集可以用于辅助法律从业者进行案件结果的初步预测,从而帮助他们更好地准备案件和制定策略。此外,该数据集还可以用于培训法律专业的学生和律师,使他们能够通过机器学习模型来分析和理解复杂的法律案例。通过这种方式,CLC-UKET数据集不仅提升了法律实践的效率,还促进了法律教育的发展。
数据集最近研究
最新研究方向
在法律科技领域,CLC-UKET数据集的最新研究方向聚焦于利用大型语言模型(LLM)进行自动化标注,以减轻大规模手动标注的负担。该数据集包含了约19,000个英国就业法庭(UKET)案例及其元数据,通过LLM进行自动标注,涵盖了事实、诉求、法律条文引用、先例引用、案件结果、理由及管辖代码等详细法律注释。研究者们通过该数据集探索了多类别案件结果预测任务,并收集了人类预测结果以建立模型性能的基准。实证结果表明,微调的Transformer模型在UKET预测任务中优于零样本和少样本LLM。此外,通过将任务相关信息整合到少样本示例中,可以显著提升零样本LLM的性能。CLC-UKET数据集及其相关研究为就业相关纠纷解决提供了宝贵的基准,推动了法律领域自然语言处理技术的发展。
相关研究论文
  • 1
    The CLC-UKET Dataset: Benchmarking Case Outcome Prediction for the UK Employment Tribunal剑桥大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

日食计算器

此日食计算器能够查询公元前3000至后3000年范围内的日食信息,生成每次日食的覆盖区、中心区范围数据,展示日食带的地图;并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。

国家天文科学数据中心 收录

GVJahnavi/Crops_set

该数据集包含图像和标签两个主要特征。图像特征的数据类型为图像,标签特征的数据类型为类标签,具体包括20种不同的植物病害和健康状态,如玉米的灰斑病、普通锈病、北方叶枯病,以及番茄的细菌性斑点病、早疫病、晚疫病等。数据集分为训练集和测试集,训练集包含25384个样本,测试集包含6346个样本。数据集的下载大小为514893426字节,总大小为474216412.07000005字节。

hugging_face 收录

Oxford 102 Flowers

牛津102花卉数据集是一个主要用于图像分类的花卉集合数据集,分为102个类别,共102种花卉,其中每个类别包含40到258幅图像。 该数据集由牛津大学工程科学系2008年在相关论文 “大量类别上的自动花分类” 中发布

OpenDataLab 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录