five

sdadas/sick_pl

收藏
Hugging Face2022-12-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sdadas/sick_pl
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个手动翻译的波兰语版本,源自流行的英语自然语言推理(NLI)语料库,包含10,000个句子对。NLI任务涉及确定一个陈述(前提)是否语义上蕴含另一个陈述(假设)。这种关系可以分为蕴含(如果第一个句子蕴含第二个句子)、中立(第一个陈述不决定第二个陈述的真值)或矛盾(如果第一个句子为真,第二个句子为假)。此外,原始SICK数据集包含句子对的语义相关性评分,范围为1到5。在翻译过程中,尽量保持原意,但在某些情况下,两个不同的英语句子在波兰语中有相同的翻译,因此对这些实例进行了轻微修改以保持意义和句法差异。
提供机构:
sdadas
原始信息汇总

数据集概述

基本信息

  • 语言: 波兰语 (pl)
  • 许可证: CC-BY-NC-SA-3.0
  • 多语言性: 单语种
  • 大小: 1K<n<10K
  • 源数据集: SICK
  • 任务类别: 文本分类
  • 任务ID:
    • 自然语言推理
    • 语义相似度评分
  • 美观名称: Sentences Involving Compositional Knowledge (Polish)

数据集结构

  • 特征:
    • pair_ID: 字符串类型
    • sentence_A: 字符串类型
    • sentence_B: 字符串类型
    • relatedness_score: 浮点数类型 (float32)
    • entailment_judgment: 字符串类型
  • 分割:
    • 训练集
    • 验证集
    • 测试集

数据实例

  • 示例: json { "pair_ID": "122", "sentence_A": "Pięcioro dzieci stoi blisko siebie , a jedno dziecko ma pistolet", "sentence_B": "Pięcioro dzieci stoi blisko siebie i żadne z nich nie ma pistoletu", "relatedness_score": 3.7, "entailment_judgment": "CONTRADICTION" }

数据字段

  • pair_ID: 句子对ID
  • sentence_A: 句子A
  • sentence_B: 句子B
  • entailment_judgment: 文本蕴含黄金标签: 蕴含 (0), 中性 (1) 或 矛盾 (2)
  • relatedness_score: 语义相关性黄金分数 (1-5连续尺度)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作