cjvt/si_nli
收藏Hugging Face2023-04-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/si_nli
下载链接
链接失效反馈官方服务:
资源简介:
SI-NLI(斯洛文尼亚自然语言推理数据集)包含5,937个人工创建的斯洛文尼亚语句子对(前提和假设),并手动标记为“蕴含”、“矛盾”和“中立”。数据集使用斯洛文尼亚参考语料库[ccKres]中的句子创建,并由注释者根据标签修改假设句子。数据集分为训练集、验证集和测试集,大小分别为4,392、547和998。测试集仅提供前提和假设,没有注释,因为SI-NLI已集成到斯洛文尼亚评估框架SloBENCH中。数据集支持自然语言推理任务,语言为斯洛文尼亚语。
SI-NLI (Slovenian Natural Language Inference dataset) contains 5,937 manually created Slovenian sentence pairs (premise and hypothesis), which are manually labeled as "entailment", "contradiction", and "neutral". The dataset is constructed using sentences from the Slovenian reference corpus [ccKres], with annotators revising the hypothesis sentences based on the assigned labels. It is split into training, validation, and test sets with sizes of 4,392, 547, and 998 respectively. The test set only provides premises and hypotheses without annotations, as SI-NLI has been integrated into the Slovenian evaluation framework SloBENCH. The dataset supports the natural language inference task, with the language being Slovenian.
提供机构:
cjvt
原始信息汇总
数据集概述
数据集名称: SI-NLI (Slovene Natural Language Inference Dataset)
语言: 斯洛文尼亚语 (Slovenian)
数据集大小: 包含5,937个人工创建的斯洛文尼亚语句子对(前提和假设)。
数据集结构: 分为训练集、验证集和测试集,分别包含4,392、547和998个样本。
数据集特征:
pair_id: 字符串,句子对标识符。premise: 字符串,前提句子。hypothesis: 字符串,假设句子。annotation1,annotation2,annotation3: 字符串,分别表示第一、第二、第三注释。annotator1_id,annotator2_id,annotator3_id: 字符串,分别表示第一、第二、第三注释者的匿名标识符。annotation_final: 字符串,最终注释,表示可以一致确定的注释。label: 字符串,聚合注释,与annotation_final相同(在一致情况下),或与annotation1相同(在不一致情况下)。
数据集用途: 用于自然语言推理任务,特别是多类分类。
许可证: CC BY-NC-SA 4.0
数据集详细信息
数据集创建方式: 由专家生成,部分数据来自斯洛文尼亚参考语料库ccKres。
数据集平衡: 每个候选句子对由注释者创建三种修改(蕴含、矛盾、中性),确保数据集平衡。
测试集特点: 测试集仅包含假设和前提,不包含注释,因为SI-NLI集成到斯洛文尼亚评估框架SloBENCH中。
数据集加载: 可通过datasets.load_dataset("cjvt/si_nli", "private", data_dir="<...>")加载私有测试集(带标签)。
数据集贡献者
- Matej Klemen
- Aleš Žagar
- Jaka Čibej
- Marko Robnik-Šikonja
搜集汇总
数据集介绍

构建方式
在自然语言推理领域,构建高质量数据集对于模型评估至关重要。SI-NLI数据集以斯洛文尼亚语参考语料库ccKres为基础,从中选取句子作为前提,由专业标注者针对每个候选句子对生成三种假设修改,分别对应蕴含、矛盾和中性标签。每个句子对均经过多位标注者独立标注,并通过标注者标识符记录个体标注结果,最终通过聚合机制确定标签,确保了数据集的平衡性与标注可靠性。
特点
该数据集作为斯洛文尼亚语自然语言推理任务的首创资源,其显著特点在于完全由人工构建与标注,涵盖了5,937个句子对,并严格划分为训练集、验证集和测试集。数据集结构精细,不仅包含前提与假设文本,还保留了多位标注者的独立标注记录及聚合标签,为研究标注者间分歧与模型鲁棒性提供了宝贵信息。其测试集设计为无标注形式,旨在集成至SloBENCH评估框架,促进模型性能的标准化比较。
使用方法
研究者可通过Hugging Face的datasets库加载该数据集,默认配置为公开版本,其中测试集仅包含前提与假设。若需使用带标签的私有测试集进行内部评估,可指定'private'配置并辅以相应数据目录路径。数据集适用于训练自然语言推理模型,用户可依据个体标注信息探索分歧学习等高级方法,并鼓励将测试集预测结果提交至SloBENCH平台,以获取客观评估并与现有研究进行对比。
背景与挑战
背景概述
在自然语言处理领域,自然语言推理任务旨在评估模型对文本间逻辑关系的理解能力。斯洛文尼亚自然语言推理数据集(SI-NLI)由Matej Klemen、Aleš Žagar、Jaka Čibej与Marko Robnik-Šikonja等研究人员于2022年创建,依托斯洛文尼亚语料库ccKres构建。该数据集聚焦于斯洛文尼亚语这一资源相对稀缺的语言,通过专家标注的句子对,为模型提供蕴含、矛盾与中立三类标签的平衡样本。其核心研究问题在于推动低资源语言的语义理解研究,填补了斯洛文尼亚语在推理任务中的空白,并为SloBENCH评估框架提供关键数据支撑,对多语言NLP技术的发展具有重要促进作用。
当前挑战
SI-NLI数据集所针对的自然语言推理任务,在斯洛文尼亚语中面临语言特异性带来的挑战,如复杂的形态变化与句法结构,增加了模型准确捕捉语义关系的难度。在构建过程中,数据集的创建需克服低资源语言标注资源匮乏的困境,依赖专家生成与修正假设句以确保质量;同时,标注过程中存在的不一致性问题,需通过多轮标注与聚合机制处理分歧,并将争议样本集中于训练集,这为数据一致性维护带来了复杂性。此外,数据集的规模相对有限,如何在保持平衡性的前提下扩展覆盖更多语言现象,亦是后续发展的关键挑战。
常用场景
经典使用场景
在自然语言处理领域,斯洛文尼亚语自然语言推理数据集SI-NLI为研究者提供了评估模型逻辑推理能力的标准平台。该数据集通过精心构建的前提与假设句子对,要求模型判断两者间的蕴含、矛盾或中立关系,成为训练和测试跨语言NLI模型的核心资源。其平衡的数据分布与专家标注确保了评估的严谨性,常被用于微调预训练语言模型,以提升其在低资源语言上的语义理解性能。
实际应用
在实际应用中,SI-NLI数据集支撑了斯洛文尼亚语智能系统的开发,例如自动问答、文本摘要和信息检索系统。通过集成至斯洛文尼亚评估框架SloBENCH,该数据集使开发者能够客观比较不同模型的推理准确性,进而优化本地化语言服务。此外,它在教育技术领域辅助构建语言理解工具,为斯洛文尼亚语的自然语言处理产业化奠定了数据基础。
衍生相关工作
围绕SI-NLI数据集,衍生了一系列针对低资源语言NLI的研究工作。例如,基于该数据集的跨语言模型微调实验,探索了从英语到斯洛文尼亚语的知识迁移机制;同时,部分研究利用其标注不一致样本,开发了学习标注分歧的鲁棒性算法。这些工作不仅丰富了多语言NLI的学术成果,还推动了类似数据集的构建,如其他斯拉夫语种的推理语料库。
以上内容由遇见数据集搜集并总结生成



