sdadas/sick_pl
收藏Hugging Face2022-12-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sdadas/sick_pl
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个手动翻译的波兰语版本,源自流行的英语自然语言推理(NLI)语料库,包含10,000个句子对。NLI任务涉及确定一个陈述(前提)是否语义上蕴含另一个陈述(假设)。这种关系可以分为蕴含(如果第一个句子蕴含第二个句子)、中立(第一个陈述不决定第二个陈述的真值)或矛盾(如果第一个句子为真,第二个句子为假)。此外,原始SICK数据集包含句子对的语义相关性评分,范围为1到5。在翻译过程中,尽量保持原意,但在某些情况下,两个不同的英语句子在波兰语中有相同的翻译,因此对这些实例进行了轻微修改以保持意义和句法差异。
提供机构:
sdadas
原始信息汇总
数据集概述
基本信息
- 语言: 波兰语 (pl)
- 许可证: CC-BY-NC-SA-3.0
- 多语言性: 单语种
- 大小: 1K<n<10K
- 源数据集: SICK
- 任务类别: 文本分类
- 任务ID:
- 自然语言推理
- 语义相似度评分
- 美观名称: Sentences Involving Compositional Knowledge (Polish)
数据集结构
- 特征:
- pair_ID: 字符串类型
- sentence_A: 字符串类型
- sentence_B: 字符串类型
- relatedness_score: 浮点数类型 (float32)
- entailment_judgment: 字符串类型
- 分割:
- 训练集
- 验证集
- 测试集
数据实例
- 示例: json { "pair_ID": "122", "sentence_A": "Pięcioro dzieci stoi blisko siebie , a jedno dziecko ma pistolet", "sentence_B": "Pięcioro dzieci stoi blisko siebie i żadne z nich nie ma pistoletu", "relatedness_score": 3.7, "entailment_judgment": "CONTRADICTION" }
数据字段
- pair_ID: 句子对ID
- sentence_A: 句子A
- sentence_B: 句子B
- entailment_judgment: 文本蕴含黄金标签: 蕴含 (0), 中性 (1) 或 矛盾 (2)
- relatedness_score: 语义相关性黄金分数 (1-5连续尺度)



