NyayaAnumana
收藏arXiv2024-12-11 更新2024-12-13 收录
下载链接:
https://github.com/NyayaAnumana-and-INLegalLlama
下载链接
链接失效反馈官方服务:
资源简介:
NyayaAnumana是由印度理工学院坎普尔分校等机构创建的印度法律判决预测数据集,包含702,945个预处理的法律案例,涵盖最高法院、高等法院、法庭法院、地方法院和每日命令,提供了前所未有的多样性和覆盖范围。数据集通过印度Kanoon网站收集,经过精心编译和预处理,旨在为法律领域的AI研究提供全面的基础。该数据集的应用领域主要集中在法律判决预测和解释,旨在通过AI技术提高法律决策的效率和透明度,解决印度司法系统中的案件积压问题。
NyayaAnumana is an Indian legal judgment prediction dataset developed by institutions including the Indian Institute of Technology Kanpur. It comprises 702,945 preprocessed legal cases spanning Supreme Court, High Court, district courts, tribunal courts and daily orders, offering unprecedented diversity and coverage. Collected via the Indian Kanoon website, the dataset has been meticulously compiled and preprocessed to provide a comprehensive foundation for AI research in the legal domain. Its core applications lie in legal judgment prediction and explanation, with the goal of improving the efficiency and transparency of legal decision-making through AI technologies and resolving the case backlog crisis in India’s judicial system.
提供机构:
印度理工学院坎普尔分校, 印度科学教育与研究所加尔各答分校, 西姆拉西姆博西斯法学院
创建时间:
2024-12-11
搜集汇总
数据集介绍

构建方式
NyayaAnumana数据集的构建过程包括从印度Kanoon网站收集了截至2024年4月的22,82,137份印度法院案件记录。这些文档涵盖了最高法院、高等法院、法庭法院、地区法院以及每日命令。数据集的预处理步骤包括去除噪声文本和元信息,如案件编号、标题、法官姓名、当事人和日期等。此外,通过识别关键部分如‘ORDER’、‘JUDGMENT’等来提取案件的核心内容,并过滤掉信息不足或过短的案件。最终,数据集被精简至7,02,945个预处理后的案件,确保了数据的质量和相关性。
特点
NyayaAnumana数据集是迄今为止最大的印度法律判决预测数据集,涵盖了从最高法院到地区法院的多层次司法机构,提供了前所未有的多样性和覆盖范围。该数据集不仅在案件数量上超越了现有的PredEx和ILDC等数据集,还在案件的多样性和复杂性上具有显著优势。此外,数据集的构建还考虑了法律判决的二分类和三分类任务,使得其在法律AI研究中具有广泛的应用潜力。
使用方法
NyayaAnumana数据集可用于训练和评估法律判决预测模型,支持二分类和三分类任务。研究者可以通过该数据集训练基于Transformer的模型,如InLegalBERT和InCaseLaw,以提高模型在印度法律领域的预测准确性。此外,数据集还可用于评估模型的解释能力,通过生成判决解释来增强AI辅助法律决策的可解释性和透明度。数据集的开放性使得研究者能够复现和扩展相关研究,推动法律AI技术的发展。
背景与挑战
背景概述
NyayaAnumana数据集是由印度理工学院坎普尔分校(IIT Kanpur)、印度科学教育与研究学院加尔各答分校(IISER Kolkata)和西姆博西斯法学院浦那分校(Symbiosis Law School Pune)的研究人员共同开发的,旨在解决印度司法系统中案件积压严重的问题。该数据集是迄今为止最大的印度法律判决预测数据集,包含了702,945个预处理过的案件,涵盖了最高法院、高等法院、法庭法院、地方法院和每日命令等多种司法层级。NyayaAnumana的名称来源于印度语,意为‘判决’和‘推理’,体现了数据集的核心目标,即通过人工智能技术辅助法律判决预测。该数据集的推出为法律领域的AI研究提供了丰富的资源,超越了现有的PredEx和ILDC等数据集,成为法律判决预测领域的里程碑。
当前挑战
NyayaAnumana数据集的构建面临多重挑战。首先,法律判决预测任务本身具有极高的复杂性,涉及法律文本的多样性和法律推理的深度。其次,数据集的构建过程中,研究人员需要处理大量的法律文档,确保数据的多样性和覆盖范围,同时还要进行预处理和标注工作,以确保数据的质量和一致性。此外,法律领域的AI模型需要具备高度的解释性,以满足法律专家对AI辅助决策的需求。最后,由于印度法律体系的多样性和复杂性,如何构建一个能够准确反映印度司法体系特点的模型也是一个巨大的挑战。
常用场景
经典使用场景
NyayaAnumana数据集的经典应用场景主要集中在印度法律判决预测(LJP)任务中。该数据集包含了从最高法院、高等法院、法庭法院、地方法院以及每日命令中收集的702,945个预处理案例,提供了前所未有的多样性和覆盖范围。通过使用该数据集,研究者可以训练和评估模型,以预测印度各级法院的判决结果,并提供相应的解释。这种预测不仅有助于提高法律系统的效率,还能为法律从业者提供辅助决策支持。
实际应用
NyayaAnumana数据集在实际应用中具有广泛的前景。首先,它可以用于开发智能法律助手,帮助律师和法官快速分析案件并预测可能的判决结果,从而提高法律决策的效率。其次,该数据集可以用于法律教育,帮助学生和从业者更好地理解复杂的法律案例和判决逻辑。此外,NyayaAnumana还可以用于法律系统的自动化处理,减少案件积压,提升司法系统的整体效率。
衍生相关工作
NyayaAnumana数据集的发布催生了一系列相关研究工作。首先,基于该数据集,研究者开发了专门针对印度法律领域的生成式大语言模型INLegalLlama,该模型在法律判决预测和解释任务中表现出色。其次,NyayaAnumana的多样性和广泛覆盖激发了更多关于法律判决预测的跨学科研究,特别是在结合法律知识和自然语言处理技术方面。此外,该数据集还推动了法律领域中可解释性AI的研究,使得模型不仅能够预测判决结果,还能提供清晰的解释,增强法律从业者对AI系统的信任。
以上内容由遇见数据集搜集并总结生成



