rti-bench
收藏Hugging Face2026-05-19 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/joyboseroy/rti-bench
下载链接
链接失效反馈官方服务:
资源简介:
RTI-Bench是首个针对印度《信息权利法案》(2005年)下中央信息委员会(CIC)决策的结构化数据集,旨在支持法律自然语言处理、公民人工智能和AI辅助司法访问的研究。数据集包含1,516个案例,分为两个来源:来源A包含1,218个经过标注的指令-响应对,来源B包含298个来自dsscic.nic.in的结构化CIC PDF决策,涵盖5位委员和3个文档格式世代(2023-2026年)。整体标签覆盖率为82.8%(1,457个主要案例),使用完全可复现的基于规则的流程提取,未使用LLM标注。数据集结构方面,来源A包含原始行索引、案例主题行、背景叙述、委员会最终指示等字段;来源B包含原始PDF文件名、文档子类型、案例编号、委员姓名等字段。数据集定义了9种结果标签,如INFORMATION_DIRECTED(委员会指示披露)和APPEAL_DISMISSED(上诉驳回),并统计了各标签分布。豁免条款分布涵盖《信息权利法案》第8(1)条下的10个子条款,共467次引用。RTI-Bench支持四个基准任务:结果预测、豁免分类、合规结果预测和通俗语言摘要。数据收集通过基于规则的方法和手动提取PDF完成,未使用LLM标注。局限性包括17.2%的主要案例带有UNKNOWN结果标签(需要人工审查),CIC PDF语料库仅涵盖5位委员,且未包含州信息委员会决策。所有数据均来自公开来源,采用CC BY 4.0许可证发布。
RTI-Bench is the first structured dataset for decisions of the Central Information Commission (CIC) under Indias Right to Information Act (2005), aimed at supporting research in legal natural language processing, citizen AI, and AI-assisted judicial access. The dataset contains 1,516 cases, divided into two sources: Source A includes 1,218 annotated instruction-response pairs, and Source B includes 298 structured CIC PDF decisions from dsscic.nic.in, covering 5 commissioners and 3 document format generations (2023-2026). The overall label coverage is 82.8% (1,457 primary cases), extracted using a fully reproducible rule-based process without LLM annotation. In terms of dataset structure, Source A (hf_annotated) includes fields such as original row index (hf_id), case subject line (title), background narrative (instruction), committee final instructions (response), public authority, information sought, list of cited exemptions (exemptions_cited), outcome label, penalty amount (penalty_inr), compensation amount (compensation_inr), and the committees final direction sentence. Source B (cic_annotated) includes fields such as original PDF filename, document subtype, document format, case number, commissioner name, public authority, issue sought, statements in hearings (application), list of cited rules, committee decision text (conclusion), outcome label, list of cited exemptions, RTI application date (rti_filed_on), CPIO reply date (cpio_replied_on), first appeal date (first_appeal_on), hearing date (date_of_hearing), and adjunct outcome. The dataset defines 9 outcome labels, including INFORMATION_DIRECTED (committee directs disclosure) and APPEAL_DISMISSED (appeal dismissed), with statistics on label counts across sources. The exemption distribution covers 10 sub-clauses under Section 8(1) of the RTI Act, with 467 citations, the most common being Section 8(1)(j) (personal information, 158 times). RTI-Bench supports four benchmark tasks: 1) Outcome prediction: predicting committee outcomes based on background narratives (multi-class classification); 2) Exemption classification: identifying cited exemptions based on narratives and decision texts (multi-label classification); 3) Adjunct outcome prediction: predicting compliance outcomes based on original CIC instructions and respondent submissions (using a subset of adjunct decisions); 4) Plain language summarization: generating citizen-accessible summaries from full decision texts. Data collection and extraction involve rule-based methods for Source A and manual PDF downloads with PyMuPDF for Source B, without LLM annotation. Limitations include 17.2% of primary cases with UNKNOWN outcome labels (requiring manual review), the CIC PDF corpus covering only 5 commissioners, and no state information commission decisions. All data is from public sources, with CIC decisions being public records under Indian law, and the dataset is released under the CC BY 4.0 license.
创建时间:
2026-05-16
搜集汇总
数据集介绍

构建方式
RTI-Bench数据集构建源于对印度中央信息委员会根据《信息权利法》所作裁决的系统性结构化处理。数据整合自两个来源:其一为1,218条经过规则化标注的指令-响应配对数据,源自公开的RTI案件数据集,通过正则表达式等可复现的规则化流程自动提取公共机构、豁免条款、处罚金额等字段;其二为298份CIC裁决PDF文档,经PyMuPDF进行文本抽取后,依据文档格式代际(2023a、2023b、2026)应用格式感知的规则化提取器。整个构建过程完全不依赖大语言模型进行标注,确保了数据处理的完全可复现性与透明性。
特点
该数据集的核心特点在于其高度结构化与法律领域专业性。它涵盖了1,516个案例,包含多种结局标签(如信息指示、上诉驳回、处罚施加等)及豁免条款分布,尤其对RTI法案中的八个关键豁免条款进行了详细标注。数据集的特色还体现在对CIC文档格式演变的系统捕捉,反映了官方文书从2023年至2026年的模板迭代。此外,数据集中还提供了PLAIN_LANGUAGE_SUMMARISATION等诸多支撑基准任务的字段,使其成为法律自然语言处理与公民人工智能研究的重要基础设施。
使用方法
RTI-Bench针对四个核心基准任务设计:结局预测(多分类)、豁免条款分类(多标签)、合规结局预测及简化语言摘要生成。用户可加载数据中的指令和响应字段进行训练与评估,利用其标注的结局标签进行监督学习,或使用豁免分类字段进行多标签分类任务。数据集的总结字段可作为文本生成的参考摘要,评估时可采用ROUGE-L与BERTScore等指标。研究者可基于TF-IDF或词向量构建基线模型,也可以微调预训练语言模型。数据处理脚本全部公开,便于快速复现与扩展实验。
背景与挑战
背景概述
RTI-Bench是印度首个针对《信息权法案》(2005年)中央信息委员会裁决的结构化数据集,由Joy Bose于2025年创建,旨在推动法律自然语言处理、公民人工智能及人工智能辅助司法公正领域的研究。该数据集以1516个案例为基础,其中1218个注释指令-响应对来自公开数据集,298个结构化PDF裁决来自印度CIC门户网站,覆盖五位信息专员及2023至2026年的三类文档格式。通过完全可复现的规则驱动管道提取标签,整体标签覆盖率达82.8%(无需大型语言模型注释),为印度行政法领域的自动决策分析、豁免条款分类与公民语言摘要提供了标准化基准。其发布填补了低资源环境下结构化法律裁决数据的空白,对促进AI技术在发展中国家司法可及性中的应用具有开创性意义。
当前挑战
数据集的核心挑战在于:1)领域问题方面,印度CIC裁决存在间接措辞与模糊表述,导致17.2%的案例被标记为‘未知’(CIC PDF子集中高达49%),当前基于模式的管道无法捕获隐含的豁免推理,亟需人类审查才能用于监督分类;2)构建过程中,PDF文档模板历经2023a、2023b、2026三种格式演进(分别包含不同标题结构与元数据布局),规则提取器需针对每个格式定制适配,而CAPTCHA验证机制和人工下载流程进一步增加了数据采集的复杂度;3)CIC PDF语料集中于五位专员(如Amita Pandove占75例),未能代表印度全国信息委员会的裁决多样性,且申诉人姓名字段覆盖率低于25%。这些技术限制与代表性偏差共同制约了模型泛化能力与下游任务的可靠性。
常用场景
经典使用场景
RTI-Bench作为印度信息权领域首个结构化裁决数据集,经典使用场景聚焦于法律文本的自动化理解与分类。研究者通过该数据集开展多重分类任务,例如依据案情背景预测中央信息委员会(CIC)的最终裁决结果,识别援引的豁免条款类型,以及评估信息提供方的合规执行情况。此外,该数据集还支持将冗长的法律文书转化为公民可读的简明摘要,从而降低普通民众获取司法信息的认知门槛。这些应用共同致力于推动司法裁决过程的透明化与可及性。
解决学术问题
该数据集的核心学术贡献在于填补了印度行政法领域结构化语料库的空白,解决了法律NLP研究中长期面临的标注数据稀缺与非标准化问题。它首次以规则驱动的可复现方式,从1526份真实裁决文书中提取出裁决结果、豁免条款、罚款金额等关键要素,为法律文本的多标签分类、情节抽取以及生成式摘要等任务提供了基准测试平台。其意义在于推动了低资源语言环境下法律智能分析的规范化,为算法辅助司法公正评估奠定了实证基础。
衍生相关工作
RTI-Bench的发展衍生了多项创新性工作:其规则驱动标注方法启发了一系列面向低资源场景的法律文本预处理框架;基于该数据集的四类基准任务催生了针对印度行政裁决的特殊序列标注模型与摘要生成架构。同时,文档格式演化分析揭示了CIC裁决模板在2023至2026年间的结构性变迁,为跨时域的法律文档理解研究提供了独特视角。这些衍生工作共同强化了数据集的学术辐射力,使其成为连接法律实证研究与自然语言处理技术的桥梁。
以上内容由遇见数据集搜集并总结生成



