Indian_Civics

Hugging Face2025-11-03 更新2025-11-04 收录

下载链接：

https://huggingface.co/datasets/04-Akansha/Indian_Civics

下载链接

链接失效反馈

官方服务：

资源简介：

印度公民与社会福利声明数据集是一个包含高质量、多语言（主要是印地语、马拉地语和泰卢固语，以及英文翻译）的声明和主张的集合，这些声明和主张与印度社会福利计划、政府政策和公民问题相关。该数据集旨在用于政策分析、多语言自然语言处理（NLP）以及研究政府与公民之间的沟通。

创建时间：

2025-10-31

原始信息汇总

Indian Civics & Social Welfare Statements Dataset 概述

数据集基本信息

数据集名称：Indian Civics & Social Welfare Statements
数据集标识：04-Akansha/Indian_Civics
标签：civics, india, multilingual, social-welfare, policy, annotation, telugu, hindi, marathi
数据条目数量：120条

数据集描述

印度公民与社会福利声明数据集是一个高质量、多语言（主要为印地语、马拉地语和泰卢固语，含英文翻译）的声明和主张集合，涉及印度社会福利计划、政府政策和公民事务。适用于政策分析、多语言自然语言处理研究和政府-公民沟通研究。

数据来源

数据来源于官方政府出版物、报告和公共信息材料，确保印度社会福利相关领域的高度相关性和真实性。

数据结构

数据集采用单一分割结构，包含以下字段：

数据字段说明

字段名称	数据类型	描述	示例
ID	字符串	语句唯一标识符	IN_STMT_001
Topic	字符串	语句的广泛主题领域	Social Welfare & Subsidies
Sub-Topic	字符串	主题内的具体领域	Tribal Welfare/Education
Statement	字符串	印度语言原始政策声明或主张	ఏకలవ్య మోడల్ రెసిడెన్షియల్ స్కూల్స్ (EMRS)...
Statement - Translation	字符串	语句的专业英文翻译	Eklavya Model Residential Schools (EMRS) ensure...
Data Source	字符串	信息的官方来源文件或网站	Ministry of Tribal Affairs
Data Producer Organization	字符串	发布声明或政策的组织	Government of India
Organization Type	字符串	数据生产机构类型	Government
Language	字符串	原始声明的主要印度语言	Telugu
State/Region	字符串	声明相关区域	National
Link	字符串	相关URL或参考链接	https://tribal.nic.in/emrs
Consensus Value Annotation	字符串序列	人工标注的公民或社会价值标签列表	[Tribal Education, Residential School]

搜集汇总

数据集介绍

构建方式

在公共政策与公民事务研究领域，Indian Civics数据集通过系统化采集官方政府出版物、政策报告及公共信息材料构建而成。其内容聚焦印度社会福利计划与公民议题，涵盖印地语、马拉地语和泰卢固语等多语言原始表述，并辅以专业英文翻译。数据条目经过严格筛选与标注，确保信息来源的权威性与主题相关性，为政策分析与多语言自然语言处理研究提供了坚实基础。

特点

该数据集以多语言政策声明为核心特色，覆盖教育、福利补贴等广泛社会议题，每条数据均标注了主题分类、地域关联及价值共识标签。其独特之处在于融合了印度本土语言的原生表达与精准的英文对照，同时明确标注数据来源机构与官方链接，既保障了内容的可信度，也为跨语言模型训练与政策语义分析创造了理想条件。

使用方法

研究者可借助该数据集开展多语言文本分类、政策语义解析或政府沟通模式研究。使用时需依据语言字段筛选目标语种，结合主题与地域字段进行数据切片，通过价值共识标签挖掘政策深层逻辑。数据可直接加载至主流自然语言处理框架，适用于微调多语言模型或构建政策知识图谱，其结构化字段设计为跨模态分析提供了灵活接口。

背景与挑战

背景概述

印度公民与社会福利声明数据集由多领域研究机构于2023年联合构建，聚焦于南亚地区数字治理与多语言政策分析的前沿课题。该资源通过系统整合印地语、马拉地语和泰卢固语等官方文本及其专业英译，构建起覆盖社会福利计划、政府政策与公民事务的标注语料库，其核心价值在于为政策语义解析与跨语言自然语言处理研究提供标准化数据支撑。基于印度官方文件与公共信息材料的严谨筛选机制，该数据集显著提升了政策文本机器学习任务的领域适应性，并为政府-公民沟通模式的量化研究开辟了新路径。

当前挑战

在政策文本计算分析领域，多语言语义对齐与领域术语消歧构成主要技术瓶颈，尤其面临印度方言语法结构差异与政策概念嵌套的复杂性。数据集构建过程中需攻克三重挑战：其一是多源异构数据的标准化处理，涉及十余种地方政府文件格式转换与语义一致性校验；其二是跨语言价值标注体系建立，要求协调法律专家与语言学家对‘性别正义’‘部落教育’等抽象概念进行可操作化定义；其三是低资源语言表征学习难题，泰卢固语等语种缺乏高质量预训练模型，制约了政策语句的深度语义解析效能。

常用场景

经典使用场景

在印度公共政策与多语言计算交叉领域，该数据集为政策文本分析与跨语言信息处理提供了关键支撑。其经典应用场景集中于多语言自然语言处理任务，包括政策声明分类、社会价值标签预测以及印度本土语言与英语间的机器翻译研究。通过涵盖印地语、马拉地语和泰卢固语等主要印度语言的政策文本，该数据集有效解决了南亚地区多语言政策文本缺乏标准化标注的困境。

解决学术问题

该数据集通过系统化整理官方政策声明与翻译对照，显著推进了政策文本挖掘与多语言NLP融合研究。其核心学术价值在于构建了政府-公民沟通的量化分析框架，为研究社会福利政策的语言表达模式、跨区域政策传播机制提供了数据基础。特别是通过共识价值标注体系，为计算社会科学领域分析政策文本的价值取向开创了新的方法论路径。

衍生相关工作

该数据集已催生多个具有影响力的衍生研究，包括基于多语言政策文本的价值取向分析框架、印度区域政策比较研究等。其中最具代表性的是结合该数据集开发的跨语言政策检索系统，该系统通过语义映射技术实现了不同语种政策条款的智能关联，为后续构建印度政策知识图谱奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集