community-datasets/cdsc

Name: community-datasets/cdsc
Creator: community-datasets
Published: 2024-01-18 08:46:51
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/cdsc

下载链接

链接失效反馈

官方服务：

资源简介：

Polish CDSCorpus数据集包含10K波兰语句对，这些句对由人工标注了语义相关性和蕴含关系。数据集用于评估波兰语的组合分布语义模型。数据集在ACL 2017会议上展示，并提供了相关论文的链接。数据集的结构包括两个配置：cdsc-e和cdsc-r，分别用于蕴含判断和相关度评分。数据集的许可证为CC BY-NC-SA 4.0，仅用于研究目的。

提供机构：

community-datasets

原始信息汇总

数据集概述

数据集描述

名称: Polish CDSCorpus
语言: 波兰语
许可: CC BY-NC-SA 4.0
多语言性: 单语
大小类别: 10K<n<100K
源数据集: 原始数据
任务类别: 其他
标签: 句子蕴含和相关性

数据集结构

配置

cdsc-e
- 特征:
  - pair_ID: int32
  - sentence_A: string
  - sentence_B: string
  - entailment_judgment:
    - 类别标签:
      - 0: NEUTRAL
      - 1: CONTRADICTION
      - 2: ENTAILMENT
- 分割:
  - train: 8000 个样本, 1381894 字节
  - test: 1000 个样本, 179392 字节
  - validation: 1000 个样本, 174654 字节
- 下载大小: 744169 字节
- 数据集大小: 1735940 字节
cdsc-r
- 特征:
  - pair_ID: int32
  - sentence_A: string
  - sentence_B: string
  - relatedness_score: float32
- 分割:
  - train: 8000 个样本, 1349894 字节
  - test: 1000 个样本, 175392 字节
  - validation: 1000 个样本, 170654 字节
- 下载大小: 747648 字节
- 数据集大小: 1695940 字节

数据集创建

注释创建者: 专家生成
语言创建者: 其他

数据集使用注意事项

其他已知限制: 数据集仅供研究目的使用。请检查数据集许可以获取更多信息。

5,000+

优质数据集

54 个

任务类型

进入经典数据集