TathyaNyaya

Name: TathyaNyaya
Creator: 印度理工学院坎普尔分校, 印度加尔各答印度理工学院, 印度普纳西门法律学院
Published: 2025-04-07 13:27:32
License: 暂无描述

arXiv2025-04-07 更新2025-04-09 收录

下载链接：

http://arxiv.org/abs/2504.04737v1

下载链接

链接失效反馈

官方服务：

资源简介：

TathyaNyaya数据集是专为事实判断预测和解释任务设计的，包含了来自印度最高法院和各高等法院的判决。该数据集分为四个部分：NyayaFacts、NyayaScrape、NyayaSimplify和NyayaFilter，分别针对事实提取、自动化事实提取、简化法律语言和事实与非事实分类。数据集通过专家标注和自动化工具相结合的方式构建，旨在为事实驱动的法律判断预测提供高质量的基础数据。

The TathyaNyaya dataset is specifically designed for fact-based judgment prediction and explanation tasks, and comprises judgments from the Supreme Court of India and various high courts across India. It is divided into four subsets: NyayaFacts, NyayaScrape, NyayaSimplify, and NyayaFilter, which target fact extraction, automated fact extraction, legal language simplification, and factual versus non-factual classification respectively. The dataset is constructed via a hybrid approach combining expert annotation and automated tools, with the aim of providing high-quality foundational data for fact-driven legal judgment prediction.

提供机构：

印度理工学院坎普尔分校, 印度加尔各答印度理工学院, 印度普纳西门法律学院

创建时间：

2025-04-07

搜集汇总

数据集介绍

构建方式

TathyaNyaya数据集的构建基于印度最高法院和各高等法院的判决文书，通过印度法律搜索引擎IndianKanoon收集约16,000份判决。构建过程分为四个关键步骤：NyayaFacts由法律专家标注关键事实段落；NyayaScrape通过自动化工具提取事实内容；NyayaSimplify利用LLaMA-3-70B模型将复杂法律文本改写为简明语言；NyayaFilter采用BiLSTM-CRF模型进行事实与非事实句子的二元分类。整个流程历时18个月，由10名资深法律学生完成标注，并通过多层质量审核确保数据可靠性。

特点

作为印度法律领域最大的事实型判决预测数据集，TathyaNyaya的核心特征体现在其纯粹的事实导向性。与依赖完整法律文书的传统数据集不同，该数据集专注于案件基础事实段落，更贴近法官早期决策的真实场景。数据集包含四个互补子集：专家标注的金标准NyayaFacts、机器提取的NyayaScrape、简化表达的NyayaSimplify以及事实过滤的NyayaFilter，共同构成超过13,629份文档的丰富语料。特别值得注意的是，数据集中55.2%的训练样本呈现上诉接受结果，平均文档长度达855词，为模型提供了充分的语义学习空间。

使用方法

使用TathyaNyaya数据集主要支持两种法律AI任务：基于事实的二元判决预测（Task A）和理性解释生成（Task B）。研究人员可先通过BiLSTM-CRF模型进行事实段落过滤，再将纯事实文本输入FactLegalLlama等微调模型。对于预测任务，建议采用512token的分块处理策略解决长文本问题；解释生成任务则推荐使用16种定制化指令模板，引导模型输出法律依据明确的解释。评估时可采用Macro F1和Accuracy等预测指标，配合ROUGE-L和BERTScore等解释质量指标，形成完整的任务评估体系。

背景与挑战

背景概述

TathyaNyaya数据集由印度理工学院坎普尔分校等机构的研究团队于2024年推出，是印度法律领域首个专注于事实性判决预测与解释（FJPE）的大规模标注数据集。该数据集源自印度最高法院及各高等法院的判例，通过提取案件核心事实而非完整法律文本来模拟真实司法决策场景，名称融合了印地语“Tathya”（事实）与“Nyaya”（正义）的哲学理念。其创新性体现在将AI法律分析从传统文本理解转向事实驱动模式，有效解决了印度司法系统因案件积压导致的效率瓶颈，为开发透明可解释的法律AI工具提供了关键基础设施。

当前挑战

构建TathyaNyaya面临三重核心挑战：首先在法律领域问题层面，需突破传统判决预测依赖完整法律文本的局限，建立纯事实驱动的预测范式，这对模型的事实提取与逻辑推理能力提出更高要求；其次在数据集构建过程中，处理印度法律文本特有的多语言混杂、非结构化表述等特性，需设计混合专家标注与BiLSTM-CRF自动分割的双层质量控制体系；最后在技术实现上，平衡法律术语精确性与模型可解释性，通过LLaMA-3-8B的指令微调实现事实性解释生成，需克服4-bit量化带来的模型容量限制与法律专业术语的语义保真难题。

常用场景

经典使用场景

在印度法律背景下，TathyaNyaya数据集为基于事实的判决预测与解释（FJPE）任务提供了经典应用场景。该数据集通过聚焦案件的核心事实而非完整法律文本，模拟了法官在初步审理阶段仅依据事实形成意见的真实场景。这种设计使得模型能够在缺乏完整法律论证的情况下，仅基于事实陈述预测判决结果并生成解释，为法律人工智能系统提供了更贴近实际司法流程的研究平台。

实际应用

在实际应用中，TathyaNyaya数据集可显著提升印度司法系统的效率。法律从业者可以利用基于该数据集开发的工具快速获取案件预测结果和解释，辅助法律研究和案情分析。法院系统可将其用于案件分流，减轻积压案件压力。此外，法律教育机构可通过该数据集构建教学工具，帮助学生理解事实与判决间的关联机制。这些应用都建立在数据集对事实与判决间因果关系的精准建模基础上。

衍生相关工作

围绕TathyaNyaya数据集已衍生出多项重要研究工作。最典型的是FactLegalLlama模型，该模型通过指令微调专门用于生成事实驱动的法律解释。在方法论层面，数据集推动了基于BiLSTM-CRF的事实提取技术和法律文本简化技术发展。在应用层面，衍生出了面向印度法律的事实检索系统、判决预测服务等。这些工作共同构成了一个以事实为中心的法律AI研究体系，持续推动该领域发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集