shunk031/jsnli
收藏Hugging Face2022-12-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shunk031/jsnli
下载链接
链接失效反馈官方服务:
资源简介:
JSNLI数据集是SNLI(自然语言推理)的日语翻译版本,主要用于自然语言推理任务。数据集包含标签、前提和假设三个字段,格式为TSV。数据集分为未过滤和过滤两个版本,分别包含548,014和533,005对训练数据,以及3,916对验证数据。数据集的注释语言为日语,适用于文本分类任务,特别是自然语言推理和多输入文本分类。数据集的使用遵循CC BY-SA 4.0许可。
JSNLI数据集是SNLI(自然语言推理)的日语翻译版本,主要用于自然语言推理任务。数据集包含标签、前提和假设三个字段,格式为TSV。数据集分为未过滤和过滤两个版本,分别包含548,014和533,005对训练数据,以及3,916对验证数据。数据集的注释语言为日语,适用于文本分类任务,特别是自然语言推理和多输入文本分类。数据集的使用遵循CC BY-SA 4.0许可。
提供机构:
shunk031
原始信息汇总
数据集概述
数据集名称
- JSNLI
语言
- 日语 (ja)
许可证
- CC BY-SA 4.0
多语言性
- 单语
任务类别
- 文本分类
任务ID
- 自然语言推理
- 多输入文本分类
标签
- 自然语言推理
- NLI
- JSNLI
数据集处理
- 数据集包含未过滤和已过滤两种版本。
- 学习数据在过滤前有548,014对,过滤后有533,005对。
- 评估数据有3,916对。
数据集结构
- 数据集以TSV格式存储,每行包含标签、前提和假设。
- 前提和假设经过JUMAN++形态素分割。
数据字段
- 标签
- 前提
- 假设
数据分割
- 未过滤版本:训练集548,014,验证集3,916
- 已过滤版本:训练集533,005,验证集3,916
数据集创建
- 数据集通过将SNLI数据集机械翻译成日语后,通过云服务进行精确过滤构建。
- 学习数据通过计算机自动过滤。
许可证信息
- 遵循CC BY-SA 4.0许可证。
引用信息
bibtex @article{吉越卓見 2020 機械翻訳を用いた自然言語推論データセットの多言語化, title={機械翻訳を用いた自然言語推論データセットの多言語化}, author={吉越卓見 and 河原大輔 and 黒橋禎夫 and others}, journal={研究報告自然言語処理 (NL)}, volume={2020}, number={6}, pages={1--8}, year={2020} }



