community-datasets/cdsc
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/cdsc
下载链接
链接失效反馈官方服务:
资源简介:
Polish CDSCorpus数据集包含10K波兰语句对,这些句对由人工标注了语义相关性和蕴含关系。数据集用于评估波兰语的组合分布语义模型。数据集在ACL 2017会议上展示,并提供了相关论文的链接。数据集的结构包括两个配置:cdsc-e和cdsc-r,分别用于蕴含判断和相关度评分。数据集的许可证为CC BY-NC-SA 4.0,仅用于研究目的。
提供机构:
community-datasets
原始信息汇总
数据集概述
数据集描述
- 名称: Polish CDSCorpus
- 语言: 波兰语
- 许可: CC BY-NC-SA 4.0
- 多语言性: 单语
- 大小类别: 10K<n<100K
- 源数据集: 原始数据
- 任务类别: 其他
- 标签: 句子蕴含和相关性
数据集结构
配置
-
cdsc-e
- 特征:
- pair_ID: int32
- sentence_A: string
- sentence_B: string
- entailment_judgment:
- 类别标签:
- 0: NEUTRAL
- 1: CONTRADICTION
- 2: ENTAILMENT
- 类别标签:
- 分割:
- train: 8000 个样本, 1381894 字节
- test: 1000 个样本, 179392 字节
- validation: 1000 个样本, 174654 字节
- 下载大小: 744169 字节
- 数据集大小: 1735940 字节
- 特征:
-
cdsc-r
- 特征:
- pair_ID: int32
- sentence_A: string
- sentence_B: string
- relatedness_score: float32
- 分割:
- train: 8000 个样本, 1349894 字节
- test: 1000 个样本, 175392 字节
- validation: 1000 个样本, 170654 字节
- 下载大小: 747648 字节
- 数据集大小: 1695940 字节
- 特征:
数据集创建
- 注释创建者: 专家生成
- 语言创建者: 其他
数据集使用注意事项
- 其他已知限制: 数据集仅供研究目的使用。请检查数据集许可以获取更多信息。



