five

community-datasets/cdsc

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/cdsc
下载链接
链接失效反馈
官方服务:
资源简介:
Polish CDSCorpus数据集包含10K波兰语句对,这些句对由人工标注了语义相关性和蕴含关系。数据集用于评估波兰语的组合分布语义模型。数据集在ACL 2017会议上展示,并提供了相关论文的链接。数据集的结构包括两个配置:cdsc-e和cdsc-r,分别用于蕴含判断和相关度评分。数据集的许可证为CC BY-NC-SA 4.0,仅用于研究目的。
提供机构:
community-datasets
原始信息汇总

数据集概述

数据集描述

  • 名称: Polish CDSCorpus
  • 语言: 波兰语
  • 许可: CC BY-NC-SA 4.0
  • 多语言性: 单语
  • 大小类别: 10K<n<100K
  • 源数据集: 原始数据
  • 任务类别: 其他
  • 标签: 句子蕴含和相关性

数据集结构

配置

  • cdsc-e

    • 特征:
      • pair_ID: int32
      • sentence_A: string
      • sentence_B: string
      • entailment_judgment:
        • 类别标签:
          • 0: NEUTRAL
          • 1: CONTRADICTION
          • 2: ENTAILMENT
    • 分割:
      • train: 8000 个样本, 1381894 字节
      • test: 1000 个样本, 179392 字节
      • validation: 1000 个样本, 174654 字节
    • 下载大小: 744169 字节
    • 数据集大小: 1735940 字节
  • cdsc-r

    • 特征:
      • pair_ID: int32
      • sentence_A: string
      • sentence_B: string
      • relatedness_score: float32
    • 分割:
      • train: 8000 个样本, 1349894 字节
      • test: 1000 个样本, 175392 字节
      • validation: 1000 个样本, 170654 字节
    • 下载大小: 747648 字节
    • 数据集大小: 1695940 字节

数据集创建

  • 注释创建者: 专家生成
  • 语言创建者: 其他

数据集使用注意事项

  • 其他已知限制: 数据集仅供研究目的使用。请检查数据集许可以获取更多信息。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作