afaji/indonli
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/afaji/indonli
下载链接
链接失效反馈官方服务:
资源简介:
IndoNLI是印尼语的第一个自然语言推理(NLI)数据集,由专家和众包工作者共同注释。该数据集旨在为印尼语的NLI提供一个具有挑战性的测试平台,明确包含了各种语言现象,如数值推理、结构变化、习语、时间和空间推理等。数据集分为训练集、验证集、测试集(由普通注释者编写)和专家测试集(由专家注释者编写)。数据集的创建背景是印尼语的NLP资源相对匮乏,此前没有公开的人类注释的NLI数据集。
IndoNLI是印尼语的第一个自然语言推理(NLI)数据集,由专家和众包工作者共同注释。该数据集旨在为印尼语的NLI提供一个具有挑战性的测试平台,明确包含了各种语言现象,如数值推理、结构变化、习语、时间和空间推理等。数据集分为训练集、验证集、测试集(由普通注释者编写)和专家测试集(由专家注释者编写)。数据集的创建背景是印尼语的NLP资源相对匮乏,此前没有公开的人类注释的NLI数据集。
提供机构:
afaji
原始信息汇总
数据集概述
数据集名称: IndoNLI
语言: 印度尼西亚语
许可证: CC-BY-SA 4.0
多语言性: 单语种
大小类别: 10K<n<100K
源数据集: 原始数据
任务类别: 文本分类
任务ID: natural-language-inference
数据集信息:
-
特征:
premise: 字符串类型hypothesis: 字符串类型label: 分类标签,包括entailment(0),neutral(1),contradiction(2)
-
配置名称: indonli
-
数据分割:
train: 10330个样本validation: 2197个样本test_lay: 2201个样本test_expert: 2984个样本
数据集创建:
- 注释过程: 由专家和众包工作者共同完成,专家注释的数据专门用作测试集。
- 注释者: 普通注释者为计算机科学学生,专家注释者为具有7年以上NLP研究经验的科学家,所有注释者均为母语使用者。
使用数据注意事项:
- 偏见讨论: 数据集使用来自维基百科和新闻的句子作为前提,这些数据源可能包含某些偏见。
数据集贡献者:
- 贡献者: 来自印度尼西亚大学、kata.ai、纽约大学、Fondazione Bruno Kessler和圣安德鲁斯大学的印度尼西亚研究人员。
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,印尼语资源相对匮乏,IndoNLI作为首个印尼语自然语言推理数据集,其构建过程体现了严谨的学术设计。数据的前提句源自印尼语维基百科、通用依存树库及IndoSum等公开语料,确保了语料的多样性与真实性。假设句则由标注者根据给定前提与目标标签人工撰写,标注流程采用多轮独立标注与共识机制:初始假设句与两名独立标注者预测一致则采纳样本,否则递增标注者直至达成三方共识,若五轮后仍无多数一致则剔除样本,以此保障标注质量与可靠性。
使用方法
使用IndoNLI时,研究者可依托其结构化分割开展自然语言推理模型的训练与评估。训练集与验证集适用于模型训练与调优,而测试集则提供双重评估视角:test_lay适用于一般性能测试,test_expert则专为检验模型处理复杂语言现象的能力设计,部分子集还可作为诊断工具深入分析模型弱点。数据以标准文本分类格式组织,可直接加载至主流机器学习框架,支持对印尼语理解模型的系统性开发与评测,推动印尼语NLP研究的深入发展。
背景与挑战
背景概述
在自然语言处理领域,印尼语长期被视为资源匮乏的语言,缺乏高质量的人工标注基准数据集。为填补这一空白,印尼大学、kata.ai、纽约大学等机构的研究人员于2021年共同构建了IndoNLI数据集,这是首个针对印尼语的自然语言推理数据集。该数据集旨在解决印尼语在语义理解与逻辑推理任务上的评估难题,通过涵盖数值推理、结构转换、习语及时空推理等多种语言现象,为印尼语NLP模型提供了严谨的测试平台,显著推动了低资源语言自然语言理解研究的发展。
当前挑战
IndoNLI面临的挑战主要体现在两方面:其一,在领域问题层面,印尼语作为低资源语言,其复杂的形态句法特征及文化特定表达为自然语言推理任务带来巨大难度,模型需精准捕捉语言细微差异与逻辑关联;其二,在构建过程中,为确保数据质量与挑战性,需协调专家与众包标注者,设计多层标注验证流程以达成标注一致性,同时需克服源文本中潜在的社会偏见与信息噪声,平衡数据的语言学多样性与标注可靠性。
常用场景
经典使用场景
在自然语言处理领域,IndoNLI数据集作为印度尼西亚语的首个人工标注自然语言推理数据集,其经典使用场景聚焦于评估和提升模型在印度尼西亚语语境下的逻辑推理能力。该数据集通过提供前提与假设之间的蕴含、中立或矛盾关系标注,为研究者构建了一个标准化的基准测试平台,广泛应用于训练和验证各类预训练语言模型在跨句子语义理解任务上的性能表现。
解决学术问题
IndoNLI的构建有效解决了印度尼西亚语作为低资源语言在自然语言推理研究中的数据匮乏问题。该数据集通过融入数值推理、结构转换、习语理解及时空推理等多种语言现象,为学术界探究语言模型的泛化能力和鲁棒性提供了关键资源。其专家标注的测试集进一步挑战了模型在复杂语言情境下的推理极限,推动了多语言NLP模型的理论发展与技术突破。
实际应用
在实际应用层面,IndoNLI为印度尼西亚语智能系统的开发奠定了坚实基础。基于该数据集训练的模型可广泛应用于机器翻译质量评估、智能客服对话理解、新闻内容真实性核查等场景。例如,在信息检索系统中,模型可借助NLI能力精准判断用户查询与文档内容的逻辑关联,从而提升搜索引擎的语义匹配精度,为印度尼西亚语地区的数字化服务提供关键技术支撑。
数据集最近研究
最新研究方向
在自然语言处理领域,印尼语作为资源相对匮乏的语言,其语义理解研究一直面临挑战。IndoNLI数据集的推出,为印尼语自然语言推理任务提供了首个高质量的人工标注基准,显著推动了该语言的前沿探索。当前研究聚焦于利用该数据集训练和评估跨语言预训练模型,如IndoBERT和mBERT,以提升模型在印尼语复杂语义现象上的推理能力,包括数值推理、结构转换及习语理解等。同时,学者们正借助专家标注的测试集进行诊断分析,深入探究模型在语言特异性任务中的偏差与局限,这为印尼语NLP技术的本地化应用奠定了坚实基础,并促进了全球多语言人工智能生态的均衡发展。
以上内容由遇见数据集搜集并总结生成



