MILDSum

Name: MILDSum
Creator: 印度理工学院卡拉格普尔分校
Published: 2023-10-28 13:51:57
License: 暂无描述

arXiv2023-10-28 更新2024-06-21 收录

下载链接：

https://github.com/Law-AI/MILDSum

下载链接

链接失效反馈

官方服务：

资源简介：

MILDSum是由印度理工学院卡拉格普尔分校创建的多语言印度法律文件摘要数据集，包含3122个来自印度高级法院和最高法院的案例判决，以及由法律实践者编写的英语和印地语摘要。该数据集通过LiveLaw网站收集，该网站提供英语和印地语版本的法律文章，总结了印度最高法院和高级法院的重要判决。MILDSum的创建旨在解决印度法律文件的跨语言摘要问题，确保所有印度人民都能公平地访问司法信息。数据集的应用领域主要集中在法律领域的跨语言摘要和机器翻译模型的训练与评估。

MILDSum is a multilingual Indian legal document summarization dataset created by the Indian Institute of Technology Kharagpur. It contains 3,122 case judgments from India’s High Courts and Supreme Court, paired with English and Hindi summaries authored by legal practitioners. This dataset was collected via the LiveLaw website, which provides English and Hindi versions of legal articles summarizing significant judgments of India’s Supreme Court and High Courts. MILDSum was developed to address the cross-lingual summarization problem for Indian legal documents, ensuring that all Indian citizens have equitable access to judicial information. Its primary application domains focus on cross-lingual summarization in the legal field, as well as the training and evaluation of machine translation models.

提供机构：

印度理工学院卡拉格普尔分校

创建时间：

2023-10-28

搜集汇总

数据集介绍

构建方式

在印度司法领域，法律判决摘要的自动化处理面临语言复杂性与可及性挑战。MILDSum数据集的构建依托于权威法律网站LiveLaw，该平台由专业法律从业者撰写英文与印地语摘要文章。研究团队通过精心设计的匹配流程，利用Bing搜索API与Jaccard相似度算法，将同一判决对应的英文与印地语摘要进行精准对齐。数据清洗阶段采用pdftotext等工具从PDF与HTML文件中提取文本，并通过自动化算法去除判决文档中的元数据，最终形成包含3,122个案例的高质量双语摘要语料库。

使用方法

该数据集为法律文本的多语言摘要研究提供了标准化实验框架。研究者可将数据集按7:1.5:1.5比例划分为训练集、验证集与测试集，支持两种主流技术路线的评估：其一是摘要-翻译流水线方法，先生成英文摘要再通过IndicTrans等翻译模型转换为印地语；其二是直接跨语言摘要方法，可基于CrossSum-mT5等模型进行端到端训练。针对长文档处理，可采用分块策略或LongT5等专用模型。评估体系包含ROUGE系列指标与BERTScore，既能衡量表面文本重叠度，也能捕捉语义层面的相似性。

背景与挑战

背景概述

随着自然语言处理技术在法律领域的深入应用，自动生成法律案例判决摘要已成为一项具有重要实践价值的研究课题。在印度司法体系中，由于历史原因，法律案例判决通常以复杂的英文撰写，而大量民众对英文的掌握有限，这导致法律信息的获取存在显著障碍。为促进司法公正与信息平等，印度理工学院卡拉格普尔分校的研究团队于2023年构建了MILDSum数据集，该数据集包含来自印度最高法院及高等法院的3,122份英文案例判决，并附有由法律从业者撰写的英文与印地语摘要。MILDSum的推出填补了印度法律领域跨语言摘要数据集的空白，为开发多语言法律文本处理模型提供了关键资源，推动了法律人工智能在多元化语言环境中的发展。

当前挑战

MILDSum数据集旨在解决法律领域跨语言摘要生成的复杂问题，其核心挑战在于将结构严谨、术语专业的英文法律文本准确转化为简洁易懂的印地语摘要，同时保持法律逻辑的完整性与权威性。在构建过程中，研究团队面临的主要困难包括：从公开法律网站提取并配对同一案例的英文与印地语摘要时，由于网站间缺乏直接链接，需利用元数据匹配与相似度计算实现精准对齐；此外，法律文本长度极大、语言风格正式且包含大量专业术语，对文本清洗、格式统一及质量验证提出了较高要求。这些挑战凸显了法律领域跨语言数据处理的技术难度与独特性。

常用场景

经典使用场景

在印度法律文本处理领域，MILDSum数据集为跨语言摘要研究提供了核心实验平台。该数据集典型地应用于训练和评估从复杂英文法律判决书生成印地语摘要的模型，尤其侧重于探索“摘要-翻译”流水线与端到端跨语言摘要方法之间的性能差异。研究者通过该数据集能够系统比较无监督抽取式、监督式以及预训练生成式模型在法律长文档上的表现，为优化多语言法律信息可及性奠定实证基础。

解决学术问题

MILDSum数据集有效应对了法律领域跨语言摘要研究中数据稀缺的核心挑战。它首次提供了大规模、高质量的英文法律判决与印地语摘要的平行语料，解决了先前研究仅局限于单语摘要或缺乏印度法律领域专用数据的问题。该数据集使得研究者能够深入探究法律文本特有的语言复杂性、长文档结构以及专业术语在跨语言转换中的保留机制，推动了法律自然语言处理向更具包容性和实用性的方向发展。

实际应用

在实际应用层面，MILDSum数据集支撑的系统能够显著提升印度司法信息的普及性与公平性。通过将晦涩冗长的英文法律判决自动转化为通俗的印地语摘要，该系统有助于广大不精通英语的民众理解法律条文与判例，促进司法透明与公民法律素养的提升。此外，该技术可集成于法律信息服务平台、律师辅助工具及司法教育系统中，为法律从业者和普通公众提供高效的多语言信息检索与理解支持。

数据集最近研究