sahilmaniyar888/Indian_Climate_Resilience_Instruction_Corpus_

Name: sahilmaniyar888/Indian_Climate_Resilience_Instruction_Corpus_
Creator: sahilmaniyar888
Published: 2026-04-30 13:18:12
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/sahilmaniyar888/Indian_Climate_Resilience_Instruction_Corpus_

下载链接

链接失效反馈

官方服务：

资源简介：

IndianCRIC（印度气候韧性指令语料库）是一个多语言数据集，旨在解决印度比哈尔邦、北方邦和贾坎德邦等高热脆弱性且AI覆盖率低的地区的需求。该数据集将经过验证的气候/灾害建议与结构上镜像的诈骗变体配对，支持安全对齐的指令调整、灾害错误信息检测和现实世界紧急通信建模。数据集包含五种语言（印地语、英语、博杰普尔语、迈蒂利语、桑塔利语）和五种格式（短信、WhatsApp、广播脚本、社区帖子、官方公告），每种格式都遵循严格的五部分紧急结构。数据集还包含诈骗配对，每个真实建议都配有一个受控的诈骗变体，以创建干净的对抗训练信号。数据集经过多项质量改进，包括结构过滤、行为对齐、安全基础、多语言校正和分布平衡。该数据集的独特之处在于教授风险下的决策制定、模拟真实灾害通信、在上下文中嵌入欺诈检测，并扩展到被忽视的印度语言。

IndianCRIC (Indian Climate Resilience Instruction Corpus) is a multilingual dataset designed to address the needs of regions like Bihar, Uttar Pradesh, and Jharkhand, which sit at the intersection of high heat vulnerability and low AI coverage. The dataset pairs verified climate/disaster advisories with structurally mirrored scam variants, enabling safety-aligned instruction tuning, disaster misinformation detection, and real-world emergency communication modeling. It includes five languages (Hindi, English, Bhojpuri, Maithili, Santali) and five formats (sms, whatsapp, radio_script, community_post, official_bulletin), each following a strict 5-part emergency structure. The dataset also features scam pairing, where every genuine advisory is paired with a controlled scam variant, creating a clean adversarial training signal. The dataset underwent several quality improvements, including structural filtering, behavioral alignment, safety grounding, multilingual correction, and distribution balancing. The dataset is unique in teaching decision-making under risk, modeling real disaster communication, embedding fraud detection in context, and expanding into ignored Indian languages.

提供机构：

sahilmaniyar888

搜集汇总

数据集介绍

构建方式

IndianCRIC数据集专为应对印度热浪灾害中的信息偏差而构建，核心创新在于将经过验证的气候与灾害建议与结构镜像的诈骗变体配对。原始数据源于多语言混合质量的咨询集，经Adaption Labs管道处理，包括结构性过滤去除界面噪音、行为对齐引入分类与风险评估等任务、安全约束确保诈骗内容仅限提示中、多语言校正保留比哈尔语等低资源语言的本地流畅性，以及分布平衡防止模板过拟合。最终形成涵盖五种语言、五种表面格式（短信、WhatsApp、广播稿、社区贴、官方公告）的指令微调语料，每行遵循严格的五部分紧急结构：状况、行动、理由、警示信号与核实热线。

特点

该数据集最突出的特点在于其低资源语言覆盖与对抗性训练信号的结合。它重视比霍普尔语、迈蒂利语和桑塔利语等被主流NLP忽视的语言，尤其对桑塔利语采用以正确性为先的小规模构建策略。诈骗配对机制通过仅改变虚假号码、欺诈计划名称等关键元素，为模型提供清晰的对抗信号，使其既能学习正确行为又能检测恶意偏差。数据集还具备高适应性评分（8.9/10）和+27.1%的质量提升，元数据填充率约99%，热线核实行不少于20%，确保在灾害通信中的实用性与可靠性。

使用方法

该数据集适用于安全导向的指令微调、灾难错误信息检测及真实世界紧急通信建模。用户可通过HuggingFace加载'instruction_main'配置，获取包含训练分割的JSONL文件。数据可用于文本生成与文本分类任务，具体包括语言建模与多类分类。使用时需注意确保模型输出不生成诈骗内容，仅从提示中学习对抗信号。对于桑塔利语等低资源语言，建议结合脚本级预处理。推荐基于Adaption Labs管道进行微调，以充分利用其行为对齐与安全约束特性，提升模型在风险决策与欺诈检测中的表现。

背景与挑战

背景概述

IndianCRIC（Indian Climate Resilience Instruction Corpus）由Maniyar Sahil于2026年创建，依托Adaption Labs的Uncharted Data Challenge，旨在应对印度东北部比哈尔、北方邦和贾坎德邦等高热脆弱地区的气候适应挑战。这些地区面临极端天气事件中官方信息与欺诈性信息混杂的问题，同时低资源语言（如博杰普尔语、迈蒂利语和桑塔利语）在AI数据集中的几乎完全缺席。该数据集聚焦于气候适应与灾难应对，通过构建包含五种语言、五种格式的真实与欺诈配对指令，推动安全对齐的指令微调、灾难虚假信息检测以及紧急通信建模，为低资源语言社区的气候韧性研究提供了开创性基础。其影响力在于首次将桑塔利语（Ol Chiki文字）作为一等公民纳入指令调优数据，填补了该语言在主流NLP基准中的空白，并获得了Adaption评分8.9/10、提升27.1%的高质量评价。

当前挑战

该数据集所解决的领域挑战包括：在气候灾难响应中，官方建议常与虚假求助热线、欺诈性救济计划及伪装成政府援助的OTP诈骗竞争，需要模型同时掌握正确行为生成与欺诈检测能力。此外，大多数多语言数据集完全忽略博杰普尔语（约5000万使用者）和迈蒂利语（约3000万使用者），或将其与印地语混杂，且桑塔利语（约800万使用者）几乎没有可用的指令调优数据，形成了巨大的覆盖率缺口。构建过程中面临的挑战包括：原始数据集混合了低质量的多语言建议，需通过结构过滤去除界面性噪音并强制提示-完成对齐；消除“仅重写”偏差，引入分类、风险评估、动作提取及跨语言推理等多样化任务；确保欺诈内容严格限于提示中、输出中不生成，并强制执行结构化输出（标签/理由/动作）；在保留博杰普尔语、迈蒂利语、桑塔利语原生流利性的同时去除多语言噪音；以及防止模板过度拟合，通过分布平衡提升任务多样性和推理覆盖范围。

常用场景

经典使用场景

IndianCRIC数据集的核心应用在于为低资源印度语言（如博杰普尔语、迈蒂利语、桑塔利语）提供气候韧性与灾害应对的指令微调训练。该数据集巧妙地将真实气候预警与结构对称的诈骗变体配对，使模型在生成安全、精准的应急通告之余，亦能敏锐识别并拒斥虚假信息。典型使用场景涵盖多语种灾害短信、WhatsApp广播、社区通告及官方公报的生成，每个条目严格遵循“情境-行动-理由-预警-热线”五段式结构，确保输出信息在紧迫环境下兼具操作性、可信度与地域适配性。

衍生相关工作

基于IndianCRIC独特的结构性设计，业内已衍生出若干开创性工作。研究者利用其诈骗-真实成对样本开发了面向低资源语言的灾害虚假信息检测框架，并在多语种身份伪装攻击识别领域取得突破。该数据集启发了针对虹膜式紧急通信模板的泛化性研究，促使学界重新审视指令微调中“行动导向”与“安全对齐”的平衡机制。此外，其五段式输出结构被借鉴用于构建跨区域气候适应型问答系统，推动了面向印度二线语言的机助灾害应对系统从理论走向工程落地。

数据集最近研究