hpprc/jsick
收藏Hugging Face2023-04-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hpprc/jsick
下载链接
链接失效反馈官方服务:
资源简介:
JSICK是一个日语和英语的自然语言推理(NLI)和语义文本相似性(STS)数据集,通过手动翻译英语数据集SICK(Marelli et al., 2014)创建。该数据集旨在支持多语言组合推理的研究,特别是日语和英语之间的语义相似性和推理能力。数据集包含两个部分:基础数据集和JSICK-stress测试集。基础数据集包含4500个训练样本和4927个测试样本,每个样本包含日语和英语的句子对、推理标签和相似性评分。JSICK-stress测试集则通过变换句子对的句法结构来测试模型是否能够捕捉日语的词序和格助词,包含900个测试样本。数据集的注释通过众包平台Lancers进行,由六名母语为日语的注释者完成,注释结果通过多数投票确定。
JSICK是一个日语和英语的自然语言推理(NLI)和语义文本相似性(STS)数据集,通过手动翻译英语数据集SICK(Marelli et al., 2014)创建。该数据集旨在支持多语言组合推理的研究,特别是日语和英语之间的语义相似性和推理能力。数据集包含两个部分:基础数据集和JSICK-stress测试集。基础数据集包含4500个训练样本和4927个测试样本,每个样本包含日语和英语的句子对、推理标签和相似性评分。JSICK-stress测试集则通过变换句子对的句法结构来测试模型是否能够捕捉日语的词序和格助词,包含900个测试样本。数据集的注释通过众包平台Lancers进行,由六名母语为日语的注释者完成,注释结果通过多数投票确定。
提供机构:
hpprc
原始信息汇总
数据集概述
数据集名称
- JSICK:日本語構成的推論・類似度データセット
数据集总结
- JSICK:通过手动将英文数据集SICK (Marelli et al., 2014)翻译成日文,创建的日文NLI和STS数据集。
- JSICK-stress Test set:用于研究模型是否能捕捉日语中的词序和格助词的数据集,通过对JSICK中的句子对进行语法结构变换而提供。
语言
- 数据集包含日语和英语。
数据集结构
数据实例
- base:包含4500个训练实例和4927个测试实例。
- stress:包含900个测试实例。
数据字段
- base:包含id, premise, hypothesis, label, score等字段。
- stress:包含id, premise, hypothesis, label, score, sentence_A_Ja_origin等字段。
数据分割
- base:训练集4500条,测试集4927条。
- stress:测试集900条。
注释
- 使用众包平台"Lancers"重新注释了JSICK数据集的推断标签和相似度分数,由六名日语母语者进行注释。
许可证
- CC BY-SA 4.0
引用信息
bibtex @article{yanaka-mineshima-2022-compositional, title = "Compositional Evaluation on {J}apanese Textual Entailment and Similarity", author = "Yanaka, Hitomi and Mineshima, Koji", journal = "Transactions of the Association for Computational Linguistics", volume = "10", year = "2022", address = "Cambridge, MA", publisher = "MIT Press", url = "https://aclanthology.org/2022.tacl-1.73", doi = "10.1162/tacl_a_00518", pages = "1266--1284", }
@article{谷中 瞳2021, title={JSICK: 日本語構成的推論・類似度データセットの構築}, author={谷中 瞳 and 峯島 宏次}, journal={人工知能学会全国大会論文集}, volume={JSAI2021}, number={ }, pages={4J3GS6f02-4J3GS6f02}, year={2021}, doi={10.11517/pjsai.JSAI2021.0_4J3GS6f02} }



