NirantK/hda_nli_hindi

Name: NirantK/hda_nli_hindi
Creator: NirantK
Published: 2024-01-18 11:05:10
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/NirantK/hda_nli_hindi

下载链接

链接失效反馈

官方服务：

资源简介：

Hindi Discourse Analysis Dataset是一个用于印地语自然语言推理（Natural Language Inference, NLI）的数据集。该数据集包含文本蕴含对，每行数据由四个列组成：前提（Premise）、假设（Hypothesis）、标签（Label）和主题（Topic）。前提和假设是用印地语书写的，而蕴含标签是用英语表示的。数据集可以用于训练印地语自然语言推理任务的模型。数据集的创建采用了从公开的印地语话语分析分类数据集中进行重铸的技术，生成了文本蕴含样本。数据集的结构为TSV格式，分为训练集、验证集和测试集。

Hindi Discourse Analysis Dataset is a specialized dataset for Hindi natural language inference (NLI). It consists of textual entailment pairs, where each row contains four columns: Premise, Hypothesis, Label, and Topic. Both the premise and hypothesis are written in Hindi, while the entailment labels are presented in English. This dataset can be used to train models for Hindi natural language inference tasks. The dataset was developed by applying recasting techniques on publicly available Hindi discourse analysis classification datasets to generate textual entailment samples. It is structured in TSV format and split into training, validation, and test sets.

提供机构：

NirantK

原始信息汇总

数据集概述

基本信息

数据集名称: Hindi Discourse Analysis Dataset
语言: 印地语 (hi)
许可证: MIT
数据集大小: 10K<n<100K
多语言性: 单语种
源数据集: 扩展自 hindi_discourse
任务类别: 文本分类
任务ID: 自然语言推理

数据集配置

配置名称: HDA hindi nli 和 hda nli hindi
特征:
- premise: 字符串类型
- hypothesis: 字符串类型
- label: 类别标签，值为 "not-entailment" (0) 或 "entailment" (1)
- topic: 类别标签，值为 "Argumentative" (0), "Descriptive" (1), "Dialogic" (2), "Informative" (3), "Narrative" (4)

数据分割

训练集: 31892 个样本，8721972 字节
验证集: 9460 个样本，2556118 字节
测试集: 9970 个样本，2646453 字节
下载大小: 13519261 字节
数据集大小: 13924543 字节

数据集创建

创建方法: 采用重构技术，将公开的印地语话语分析分类数据集转换为文本蕴含问题。
源数据: BBC 印地语头条数据集

数据字段

premise: 前提，字符串类型
hypothesis: 假设，字符串类型
label: 标签，类别标签，值为 "not-entailment" (0) 或 "entailment" (1)
topic: 主题，类别标签，值为 "Argumentative" (0), "Descriptive" (1), "Dialogic" (2), "Informative" (3), "Narrative" (4)

数据实例

json { "hypothesis": "यह एक वर्णनात्मक कथन है।", "label": 1, "premise": "जैसे उस का सारा चेहरा अपना हो और आँखें किसी दूसरे की जो चेहरे पर पपोटों के पीछे महसूर कर दी गईं।", "topic": 1 }

数据集用途

用于训练印地语自然语言推理任务的模型。

许可证信息

许可证: MIT
版权声明: 由 Multimodal Digital Media Analysis Lab - Indraprastha Institute of Information Technology, New Delhi (MIDAS, IIIT-Delhi) 持有。

引用信息

bibtex @inproceedings{uppal-etal-2020-two, title = "Two-Step Classification using Recasted Data for Low Resource Settings", author = "Uppal, Shagun and Gupta, Vivek and Swaminathan, Avinash and Zhang, Haimin and Mahata, Debanjan and Gosangi, Rakesh and Shah, Rajiv Ratn and Stent, Amanda", booktitle = "Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing", month = dec, year = "2020", address = "Suzhou, China", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.aacl-main.71", pages = "706--719", abstract = "An NLP model{}s ability to reason should be independent of language. Previous works utilize Natural Language Inference (NLI) to understand the reasoning ability of models, mostly focusing on high resource languages like English. To address scarcity of data in low-resource languages such as Hindi, we use data recasting to create NLI datasets for four existing text classification datasets. Through experiments, we show that our recasted dataset is devoid of statistical irregularities and spurious patterns. We further study the consistency in predictions of the textual entailment models and propose a consistency regulariser to remove pairwise-inconsistencies in predictions. We propose a novel two-step classification method which uses textual-entailment predictions for classification task. We further improve the performance by using a joint-objective for classification and textual entailment. We therefore highlight the benefits of data recasting and improvements on classification performance using our approach with supporting experimental results.", }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，低资源语言的推理能力研究常受限于数据稀缺。该数据集采用数据重铸技术，将公开可用的印地语语篇分析分类数据集转化为文本蕴含问题。具体而言，研究者为标签分类体系中的每个类别构建模板假设，并将原始标注句子与每个模板假设配对，从而生成蕴含样本。这一过程借鉴了Poliak等人的方法，确保了数据转换的系统性与逻辑一致性，为印地语自然语言推理任务提供了结构化基础。

特点

该数据集专为印地语自然语言推理设计，涵盖约五万条数据实例，每条包含前提、假设、标签及主题四列。标签分为蕴含与非蕴含两类，主题则细分为论证性、描述性、对话性、信息性与叙事性五种语篇模式。数据以TSV格式存储，并划分为训练集、验证集与测试集，结构清晰且规模适中。其独特之处在于通过机器自动标注生成，避免了人工偏差，同时融合多类语篇特征，为模型提供了丰富的语言推理场景。

使用方法

该数据集适用于训练印地语自然语言推理模型，用户可通过HuggingFace平台直接加载并应用于文本分类任务。使用前需依据官方指南解析数据字段，其中前提与假设为印地语文本，标签以英文表示。研究人员可利用训练集进行模型微调，验证集用于超参数优化，测试集则评估模型性能。此外，数据重铸方法支持将分类任务转化为蕴含问题，为低资源语言下的推理研究提供了灵活的实验框架。

背景与挑战

背景概述

在自然语言处理领域，低资源语言的推理能力研究长期面临数据稀缺的挑战。由印度德里信息技术研究所多模态数字媒体分析实验室（MIDAS, IIIT-Delhi）的研究团队于2020年创建的印地语话语分析自然语言推理数据集，旨在通过数据重构技术，将现有的印地语话语分类数据集转化为蕴含推理任务格式。该数据集的核心研究问题是提升印地语等低资源语言在自然语言推理任务上的模型性能，通过提供高质量的蕴含对样本，推动跨语言推理模型的均衡发展，对南亚语言的信息处理研究具有显著的学术影响力。

当前挑战

该数据集致力于解决印地语自然语言推理任务中的领域挑战，即如何在数据稀缺环境下构建可靠的语义推理模型。其构建过程面临双重困难：一方面，原始话语分类数据的标注依赖于众包流程，需确保跨标注者的一致性；另一方面，采用重构技术将分类数据转化为蕴含对时，必须精心设计模板假设以避免引入统计偏差或虚假模式。此外，数据集规模相对有限，可能制约大规模预训练模型的有效学习，对模型的泛化能力提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，印地语作为全球主要语言之一，其语言理解模型的构建面临数据稀缺的挑战。NirantK/hda_nli_hindi数据集通过文本蕴含任务，为印地语自然语言推理提供了经典的应用场景。该数据集包含前提与假设的配对，并标注了蕴含关系，使得研究者能够训练模型判断假设是否可从前提中推断出来，从而深化对印地语语义逻辑的理解。

解决学术问题

该数据集有效解决了低资源语言环境下自然语言推理研究的瓶颈问题。通过数据重铸技术，将现有的印地语语篇分析分类数据转化为蕴含问题，弥补了印地语NLI数据的空白。这不仅促进了跨语言推理模型的发展，还为探索语言无关的推理能力提供了实证基础，推动了计算语言学在多元语言环境中的均衡进步。

衍生相关工作

围绕该数据集，衍生了一系列经典研究工作，如Uppal等人提出的两步分类方法，利用文本蕴含预测提升分类性能。后续研究进一步探索了联合目标优化和一致性正则化技术，以消除预测中的成对不一致性。这些工作不仅拓展了低资源语言NLI的理论框架，还为多语言模型迁移学习提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集