lok-sabha-qa
收藏Hugging Face2026-03-06 更新2026-03-07 收录
下载链接:
https://huggingface.co/datasets/opensansad/lok-sabha-qa
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自印度人民院(议会下院)的86,500多条议会问答记录,涵盖第18届人民院(2024-2026年)的25,974个问题(已完全提取问题与答案文本)和第17届人民院(2019-2024年)的60,549个问题(提供元数据和PDF链接,文本提取正在进行中)。每条记录包含丰富的元数据,如负责部门、主题、日期、议员姓名以及原始PDF链接。数据集支持多种任务,包括问答/检索增强生成、文本分类、摘要生成、信息提取和多语言NLP。数据主要为英文,部分记录为印地语或双语混合。数据集结构包括唯一标识符、议会届次、会议编号、问题编号、类型( starred或unstarred)、日期、主题、部门、议员姓名、完整文本、问题文本、答案文本、字数统计、PDF链接等字段。数据集通过OpenSansad项目公开,旨在提高印度议会工作的透明度和可访问性。
创建时间:
2026-03-05
原始信息汇总
OpenSansad Lok Sabha Q&A 数据集概述
数据集基本信息
- 数据集名称: OpenSansad — Lok Sabha Q&A Dataset
- 发布者/联系人: Sammit Jain
- 许可证: CC-BY-4.0
- 语言: 主要为英语 (
en),部分记录为印地语 (hi),部分记录为双语混合。 - 数据规模: 86,500+ 条记录,属于
10K<n<100K规模类别。 - 任务类别: 问答、文本分类、摘要。
- 标签: 议会、印度、人民院、政府、政治、透明度、opensansad、rag。
数据集内容与结构
数据来源与范围
数据集包含来自印度人民院(议会下院)的结构化议会问答记录。
- 第18届人民院: 涵盖第2至第7次会议(2024年7月—2026年2月),共25,974个问题,问题与答案文本已完全提取。
- 第17届人民院: 涵盖第1至第15次会议(2019年6月—2024年2月),共60,549个问题,元数据和PDF链接已就绪,文本提取正在进行中。 数据来源于印度议会的官方门户网站 Digital Sansad。
数据字段
数据集包含以下字段:
id: 唯一标识符,格式为LS{lok_no}-S{session}-{type}-{ques_no}。lok_no: 人民院届数(17或18)。session_no: 议会会议编号。ques_no: 会议内的问题序列号。type: 问题类型,STARRED(议会口头回答)或UNSTARRED(书面回答)。date: 问题回答日期,格式为YYYY-MM-DD。subject: 问题的主题或标题。ministry: 负责回答的政府部门。members: 提出问题的议员姓名列表。full_text: 从源PDF提取的完整文本。question_text: 分离出的问题部分文本。answer_text: 政府的答案部分文本(约0.05%未分割的记录为null)。question_word_count: 问题文本的字数。answer_word_count: 答案文本的字数。pdf_url: 指向Digital Sansad上原始英文PDF的URL。pdf_url_hindi: 指向Digital Sansad上印地语PDF的URL。num_pages: 源PDF的页数。
数据划分
数据集仅提供一个 train 分割,包含86,523个实例。用户可根据届数、会议、日期、部门或问题类型创建自定义划分。
数据集特点与用途
支持的任务
- 问答/检索增强生成: 可直接使用问答对构建关于印度议会程序的检索增强生成系统。配套项目为 lok-sabha-rag。
- 文本分类: 按部门、主题或问题类型(星标与非星标)对问题进行分类。
- 摘要: 对冗长的政府回复生成简洁摘要。
- 信息抽取: 从答案文本中抽取计划、统计数据、政策细节等结构化数据。
- 多语言NLP: 部分记录包含印地语文本,适用于印地语/英语混合NLP任务。
已知局限性
- OCR伪影: 文本从PDF提取,部分PDF的嵌入式文本层已损坏,可能导致少量记录(约0.05%)出现乱码。
- 问答分割: 问答分割为自动化处理,偶尔可能包含页眉/页脚文本或分割边界不精确。
- 覆盖范围: 目前仅涵盖第17届和第18届人民院。第18届已完全提取;第17届所有问题均有元数据和PDF链接,文本提取正在进行中。
- 印地语记录: 一小部分记录为印地语。针对印地语的问答分割依赖于印地语特定标记,可靠性可能低于英语记录。
使用信息
加载与使用
python from datasets import load_dataset ds = load_dataset("opensansad/lok-sabha-qa")
引用
bibtex @dataset{opensansad_lok_sabha_qa, title = {OpenSansad Lok Sabha Q&A Dataset}, author = {Sammit Jain}, year = {2026}, url = {https://huggingface.co/datasets/opensansad/lok-sabha-qa}, license = {CC-BY-4.0}, }
搜集汇总
数据集介绍
构建方式
在政治透明度与开放数据运动的背景下,该数据集通过系统化流程构建而成。其源数据来自印度议会官方门户网站Digital Sansad,首先通过API爬取问题元数据,随后下载对应的PDF文档。利用Docling工具进行文本提取,并采用涵盖英语、印地语及多种OCR伪影的多策略正则表达式分割器,将问题与答案部分精准分离,最终形成结构化的机器可读记录。
特点
作为印度议会下院问答记录的集合,该数据集展现出多维度特征。它囊括了超过八万六千条记录,涵盖第17届与第18届人民院,每条记录均附有丰富的元数据,包括负责部门、主题、日期及议员姓名。数据集支持双语,以英语为主,部分包含印地语,适用于跨语言任务。其结构化字段如问题类型、字数统计及原始PDF链接,为深度分析提供了坚实基础。
使用方法
在自然语言处理与政策分析领域,该数据集提供了灵活的应用途径。用户可通过Hugging Face的datasets库直接加载,并利用过滤功能按部门、会期或问题类型进行数据子集选择。它特别适用于检索增强生成、文本分类、摘要生成及信息抽取等任务。配套的RAG项目展示了如何将其集成至问答管道中,以支持对印度议会程序的查询。
背景与挑战
背景概述
在数字治理与政治透明度研究领域,印度议会问答记录作为政府问责与政策分析的关键信息源,长期以非结构化PDF形式存在,制约了系统性分析。Lok Sabha Q&A数据集由Sammit Jain领导的OpenSansad项目于2026年创建,旨在将印度人民院(下议院)的问答记录转化为结构化、机器可读的格式。该数据集覆盖第17届(2019-2024年)与第18届(2024-2026年)人民院,包含超过8.6万条记录,涉及各部委政策、公共支出等议题,为政治学、计算社会科学及多语言自然语言处理研究提供了高质量语料,显著提升了印度议会数据的可访问性与分析潜力。
当前挑战
该数据集致力于解决议会问答自动解析与信息检索的领域挑战,包括从非结构化PDF中精准分离问题与答案文本、处理英语与印地语混合内容,以及应对光学字符识别过程中的噪声干扰。在构建过程中,面临源数据格式异构、部分PDF文本层损坏导致的提取误差,以及大规模历史数据(如第17届人民院)文本提取尚未完成等工程挑战。此外,问答分割的自动化方法在复杂版式或低质量扫描文档中可能出现边界识别偏差,需持续优化多策略解析算法以确保数据的一致性与完整性。
常用场景
经典使用场景
在政治信息学与计算社会科学领域,Lok Sabha Q&A数据集为研究印度议会民主进程提供了结构化文本资源。其最经典的使用场景是构建检索增强生成(RAG)系统,利用其中超过八万六千条问答对,训练模型精准检索与特定政策、部门或议题相关的政府官方答复,从而实现对印度议会庞杂议事记录的高效知识查询与信息整合。
解决学术问题
该数据集有效解决了政治学与计算语言学交叉领域的若干核心问题。它通过机器可读的格式,为量化分析政府问责机制、政策议题演变以及议员问政模式提供了实证基础。研究者可借此探究印度立法机构的透明度与响应性,分析跨部门政策协调的文本特征,并推动多语言(英语与印地语)混合文本处理技术的发展,弥合了传统质性研究与大规模文本分析之间的鸿沟。
衍生相关工作
围绕该数据集已衍生出多项经典工作,其中最具代表性的是其配套项目“lok-sabha-rag”,它构建了一个完整的检索增强生成管道,专门用于回答关于印度议会程序的查询。此外,该数据也被用于训练文本分类模型以自动识别问题所属的政府部门与主题,以及开发摘要模型来凝练复杂的政府答复。这些工作共同推动了面向政治文本的领域特定自然语言处理技术的发展。
以上内容由遇见数据集搜集并总结生成



