five

muhammadravi251001/squadid-nli

收藏
Hugging Face2024-05-16 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/muhammadravi251001/squadid-nli
下载链接
链接失效反馈
官方服务:
资源简介:
SQuAD-ID-NLI数据集是从SQuAD-ID问答数据集中衍生出来的,专门用于自然语言推理(NLI)任务。该数据集包含前提、假设和标签等字段,并且通过命名实体识别(NER)、分块标签、正则表达式和嵌入相似性技术来确定其矛盾集。数据集的语言为印尼语,主要用于印尼语的自然语言推理任务。数据集的创建目的是为了微调NLI模型,以提高问答模型的性能。数据集的结构包括训练集、验证集和测试集,分别包含236890、23748和23746个样本。

SQuAD-ID-NLI数据集是从SQuAD-ID问答数据集中衍生出来的,专门用于自然语言推理(NLI)任务。该数据集包含前提、假设和标签等字段,并且通过命名实体识别(NER)、分块标签、正则表达式和嵌入相似性技术来确定其矛盾集。数据集的语言为印尼语,主要用于印尼语的自然语言推理任务。数据集的创建目的是为了微调NLI模型,以提高问答模型的性能。数据集的结构包括训练集、验证集和测试集,分别包含236890、23748和23746个样本。
提供机构:
muhammadravi251001
原始信息汇总

数据集概述

  • 名称: SQuAD-ID-NLI
  • 语言: 印度尼西亚语
  • 许可证: 未知
  • 多语言性: 单语
  • 大小: 100K<n<1M
  • 来源数据集: SQuAD-ID
  • 任务类别: 文本分类
  • 任务ID: 自然语言推理
  • 数据集特征:
    • premise: 字符串类型
    • hypothesis: 字符串类型
    • label: 分类标签,值包括 entailment (0), neutral (1), contradiction (2)
  • 数据分割:
    • 训练集: 236890个样本
    • 验证集: 23748个样本
    • 测试集: 23746个样本

数据集创建

  • 注释创建: 机器生成,部分手动验证
  • 语言创建: 专家生成
  • 采集理由: 印度尼西亚语NLP资源不足,需要NLI数据集以优化NLI模型,进而提高问答模型的性能。
  • 源数据: 来自印度尼西亚的著名问答数据集,原始数据由研究人员完全标注。
  • 个人和敏感信息: 可能包含来自维基百科和新闻的个人信息,尤其是关于知名/重要人物的信息。

使用数据注意事项

  • 偏见讨论: 问答数据集(及由此衍生的NLI数据集)使用来自维基百科和新闻的句子作为前提,这些数据源可能包含偏见。
  • 其他已知限制: 无其他已知限制。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作