Lok Sabha Dataset

github2021-11-27 更新2024-05-31 收录

下载链接：

https://github.com/Roh15/Analysis-of-Lok-Sabha-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

包含所有Lok Sabha辩论直至2021年3月25日的数据集，以及相关的数据分析。

A dataset encompassing all Lok Sabha debates up to March 25, 2021, along with associated data analysis.

创建时间：

2021-11-26

原始信息汇总

数据集概述

数据集名称

Analysis of Lok Sabha Dataset

数据集描述

包含截至2021年3月25日的所有Lok Sabha辩论的数据集及分析。

数据文件链接

PDFs: 链接
Text Files: 链接

数据集创建相关脚本

Lok Sabha Data Scraper: 用于下载Lok Sabha辩论PDF的脚本。
Aryan2 to Unicode Map: 包含了解PDF中使用的字体及其编码的脚本，以及Aryan2字体编码到Unicode编码的映射。
OCR: 用于PDF的OCR脚本。
Lok Sabha Data Harshil: 用于清理文本并将其存储为CSV文件的脚本。

分析相关脚本

NER and POS Tagging: 用于英语数据的NER和印地语数据的POS标记的脚本。
Calculate Stats: 用于计算各种统计数据的脚本，如每个Lok Sabha的文件数量、实体数量、实体频率等。
Hindi NER: 使用Flair和IndicBart对印地语文本进行NER的试验。

接口相关脚本

Geocoding (GoogleMapsAPI): 使用Google Maps API获取地理位置坐标（纬度和经度）的脚本。
Geocoding (NominatimAPI): 使用Nominatim API获取地理位置坐标的脚本，以及获取全球所有国家、州和城市/城镇名称并将其翻译成印地语的脚本。

搜集汇总

数据集介绍

构建方式

Lok Sabha数据集的构建过程体现了多源数据整合与处理的复杂性。该数据集通过从Lok Sabha数字图书馆下载辩论PDF文件，利用OCR技术将PDF内容转换为文本，并结合Aryan2到Unicode的字体映射，确保文本的准确编码。随后，通过脚本对文本进行清洗和格式化，最终生成结构化的CSV文件。这一过程不仅涉及数据抓取与转换，还包括对多语言文本的编码处理，确保了数据的完整性与可用性。

特点

Lok Sabha数据集的特点在于其涵盖了印度议会下院（Lok Sabha）的辩论记录，时间跨度直至2021年3月25日。数据集不仅包含原始PDF文件，还提供了经过OCR处理的文本文件，支持多语言分析，尤其是英语和印地语。此外，数据集还提供了地理编码功能，能够将辩论中提到的地点转换为地理坐标，并通过可视化界面展示，为研究者提供了多维度的分析视角。

使用方法

Lok Sabha数据集的使用方法多样，研究者可以通过提供的Python脚本进行数据抓取、文本清洗和格式化。数据集支持自然语言处理任务，如命名实体识别（NER）和词性标注（POS），尤其是针对印地语文本的NER分析。此外，数据集还提供了地理编码功能，研究者可以利用Google Maps API或Nominatim API获取地点的经纬度信息，并通过可视化工具进行空间分析。数据集的使用不仅限于文本分析，还可结合地理信息进行跨领域研究。

背景与挑战

背景概述

Lok Sabha数据集是一个专注于印度下议院（Lok Sabha）辩论记录的文本数据集，涵盖了截至2021年3月25日的所有辩论内容。该数据集由研究人员通过从印度下议院数字图书馆中抓取PDF文件，并利用OCR技术将其转换为可分析的文本格式而构建。数据集的核心研究问题在于如何通过自然语言处理技术，从大量的议会辩论记录中提取有价值的信息，例如实体识别、词性标注以及地理编码等。该数据集为政治学、语言学以及信息检索领域的研究提供了重要的数据支持，特别是在分析印度政治话语和决策过程方面具有显著的影响力。

当前挑战

Lok Sabha数据集在构建和应用过程中面临多重挑战。首先，数据获取和预处理阶段存在技术难题，例如PDF文件的字体编码不统一，导致OCR转换过程中出现大量错误，需通过Aryan2到Unicode的映射进行校正。其次，由于辩论内容涉及多种语言（如英语和印地语），跨语言的实体识别和词性标注任务尤为复杂，尤其是在印地语文本的处理上，现有的NLP工具表现不佳。此外，地理编码任务需要依赖外部API（如Google Maps和Nominatim），这不仅增加了数据处理的复杂性，还可能导致数据隐私和API调用限制的问题。这些挑战共同构成了该数据集在实际应用中的主要障碍。

常用场景

经典使用场景

Lok Sabha数据集广泛应用于政治学和语言处理领域的研究中，尤其是在分析印度议会辩论的内容和结构时。研究者利用该数据集进行文本挖掘、情感分析和主题建模，以揭示议会辩论中的关键议题和讨论趋势。

解决学术问题

该数据集解决了在非英语文本处理中的多个挑战，特别是针对印地语文本的命名实体识别（NER）和词性标注（POS）。通过提供高质量的议会辩论文本，研究者能够开发更精确的自然语言处理模型，从而提升对多语言文本的理解和分析能力。

衍生相关工作

基于Lok Sabha数据集，研究者已经开发了多种工具和模型，如用于印地语文本的NER模型和地理编码工具。这些工具不仅提升了数据处理的效率，还为后续的研究提供了坚实的基础。此外，该数据集还激发了关于多语言文本处理和跨文化政治分析的新研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集