five

shunk031/jsnli

收藏
Hugging Face2022-12-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shunk031/jsnli
下载链接
链接失效反馈
官方服务:
资源简介:
JSNLI数据集是SNLI(自然语言推理)的日语翻译版本,主要用于自然语言推理任务。数据集包含标签、前提和假设三个字段,格式为TSV。数据集分为未过滤和过滤两个版本,分别包含548,014和533,005对训练数据,以及3,916对验证数据。数据集的注释语言为日语,适用于文本分类任务,特别是自然语言推理和多输入文本分类。数据集的使用遵循CC BY-SA 4.0许可。

JSNLI数据集是SNLI(自然语言推理)的日语翻译版本,主要用于自然语言推理任务。数据集包含标签、前提和假设三个字段,格式为TSV。数据集分为未过滤和过滤两个版本,分别包含548,014和533,005对训练数据,以及3,916对验证数据。数据集的注释语言为日语,适用于文本分类任务,特别是自然语言推理和多输入文本分类。数据集的使用遵循CC BY-SA 4.0许可。
提供机构:
shunk031
原始信息汇总

数据集概述

数据集名称

  • JSNLI

语言

  • 日语 (ja)

许可证

  • CC BY-SA 4.0

多语言性

  • 单语

任务类别

  • 文本分类

任务ID

  • 自然语言推理
  • 多输入文本分类

标签

  • 自然语言推理
  • NLI
  • JSNLI

数据集处理

  • 数据集包含未过滤和已过滤两种版本。
  • 学习数据在过滤前有548,014对,过滤后有533,005对。
  • 评估数据有3,916对。

数据集结构

  • 数据集以TSV格式存储,每行包含标签、前提和假设。
  • 前提和假设经过JUMAN++形态素分割。

数据字段

  • 标签
  • 前提
  • 假设

数据分割

  • 未过滤版本:训练集548,014,验证集3,916
  • 已过滤版本:训练集533,005,验证集3,916

数据集创建

  • 数据集通过将SNLI数据集机械翻译成日语后,通过云服务进行精确过滤构建。
  • 学习数据通过计算机自动过滤。

许可证信息

  • 遵循CC BY-SA 4.0许可证。

引用信息

bibtex @article{吉越卓見 2020 機械翻訳を用いた自然言語推論データセットの多言語化, title={機械翻訳を用いた自然言語推論データセットの多言語化}, author={吉越卓見 and 河原大輔 and 黒橋禎夫 and others}, journal={研究報告自然言語処理 (NL)}, volume={2020}, number={6}, pages={1--8}, year={2020} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作