five

hpprc/janli

收藏
Hugging Face2023-04-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hpprc/janli
下载链接
链接失效反馈
官方服务:
资源简介:
JaNLI(Japanese Adversarial NLI)数据集是一个专门设计用于测试和揭示模型在处理日语语言现象时脆弱性的数据集。该数据集受到英语HANS数据集的启发,专注于日语的语言现象。数据集包含两个版本:base和original,每个版本都有特定的数据字段和结构。数据集的语言为日语,数据实例包括前提、假设、标签、启发式方法、名词短语数量和语义标签等字段。数据集的结构包括训练集和测试集,分别包含13,680和720个实例。数据集的注释过程涉及对前提和假设句子的结构模式和语言现象进行标记。

JaNLI(Japanese Adversarial NLI)数据集是一个专门设计用于测试和揭示模型在处理日语语言现象时脆弱性的数据集。该数据集受到英语HANS数据集的启发,专注于日语的语言现象。数据集包含两个版本:base和original,每个版本都有特定的数据字段和结构。数据集的语言为日语,数据实例包括前提、假设、标签、启发式方法、名词短语数量和语义标签等字段。数据集的结构包括训练集和测试集,分别包含13,680和720个实例。数据集的注释过程涉及对前提和假设句子的结构模式和语言现象进行标记。
提供机构:
hpprc
原始信息汇总

数据集概述

数据集名称

  • 名称:JaNLI
  • 全称:Japanese Adversarial NLI

语言

  • 语言:日语 (BCP-47 ja-JP)

任务类型

  • 任务类型:文本分类
  • 具体任务:自然语言推理

许可证

  • 许可证:CC BY-SA 4.0

数据集结构

数据实例

  • base:包含id, premise, hypothesis, label, heuristics, number_of_NPs, semtag字段。
  • original:包含id, sentence_A_Ja, sentence_B_Ja, entailment_label_Ja, heuristics, number_of_NPs, semtag字段。

数据字段

  • base

    • id: 句子对编号
    • premise: 前提句
    • hypothesis: 假设句
    • label: 句子对正确标签(蕴含或非蕴含)
    • heuristics: 启发式(结构模式)标签
    • number_of_NPs: 句子中名词短语数量
    • semtag: 语言现象标签
  • original

    • id: 句子对编号
    • sentence_A_Ja: 前提句
    • sentence_B_Ja: 假设句
    • entailment_label_Ja: 句子对正确标签(蕴含或非蕴含)
    • heuristics: 启发式(结构模式)标签
    • number_of_NPs: 句子中名词短语数量
    • semtag: 语言现象标签

数据分割

  • base:训练集13,680条,测试集720条。
  • original:训练集13,680条,测试集720条。

注释

  • 每对前提和假设句子都标有结构模式和语言现象的标签。
  • 结构关系被分类为五种模式,每种模式与可能导致蕴含关系预测错误的启发式相关联。
  • 共有11种日语语言现象和构造用于生成五种对抗性推断模式。

附加信息

  • 创建者:Hitomi Yanaka 和 Koji Mineshima
  • 论文:Assessing the Generalization Capacity of Pre-trained Language Models through Japanese Adversarial Natural Language Inference
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作