muhammadravi251001/squadid-nli

Name: muhammadravi251001/squadid-nli
Creator: muhammadravi251001
Published: 2024-05-16 08:14:12
License: 暂无描述

Hugging Face2024-05-16 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/muhammadravi251001/squadid-nli

下载链接

链接失效反馈

官方服务：

资源简介：

SQuAD-ID-NLI数据集是从SQuAD-ID问答数据集中衍生出来的，专门用于自然语言推理（NLI）任务。该数据集包含前提、假设和标签等字段，并且通过命名实体识别（NER）、分块标签、正则表达式和嵌入相似性技术来确定其矛盾集。数据集的语言为印尼语，主要用于印尼语的自然语言推理任务。数据集的创建目的是为了微调NLI模型，以提高问答模型的性能。数据集的结构包括训练集、验证集和测试集，分别包含236890、23748和23746个样本。

提供机构：

muhammadravi251001

原始信息汇总

数据集概述

名称: SQuAD-ID-NLI
语言: 印度尼西亚语
许可证: 未知
多语言性: 单语
大小: 100K<n<1M
来源数据集: SQuAD-ID
任务类别: 文本分类
任务ID: 自然语言推理
数据集特征:
- premise: 字符串类型
- hypothesis: 字符串类型
- label: 分类标签，值包括 entailment (0), neutral (1), contradiction (2)
数据分割:
- 训练集: 236890个样本
- 验证集: 23748个样本
- 测试集: 23746个样本

数据集创建

注释创建: 机器生成，部分手动验证
语言创建: 专家生成
采集理由: 印度尼西亚语NLP资源不足，需要NLI数据集以优化NLI模型，进而提高问答模型的性能。
源数据: 来自印度尼西亚的著名问答数据集，原始数据由研究人员完全标注。
个人和敏感信息: 可能包含来自维基百科和新闻的个人信息，尤其是关于知名/重要人物的信息。

使用数据注意事项

偏见讨论: 问答数据集（及由此衍生的NLI数据集）使用来自维基百科和新闻的句子作为前提，这些数据源可能包含偏见。
其他已知限制: 无其他已知限制。

5,000+

优质数据集

54 个

任务类型

进入经典数据集