dkoterwa/kor-sts-cosine-embedding-loss

Name: dkoterwa/kor-sts-cosine-embedding-loss
Creator: dkoterwa
Published: 2023-07-25 10:06:46
License: 暂无描述

Hugging Face2023-07-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dkoterwa/kor-sts-cosine-embedding-loss

下载链接

链接失效反馈

官方服务：

资源简介：

KorSTS数据集是一个用于韩语自然语言理解的基准数据集，包含句子对及其相似度评分。该数据集经过修改，将原始评分转换为适用于PyTorch的CosineEmbeddingLoss的标签，即评分大于或等于2.5的句子对标记为1（相似），否则标记为-1（不相似）。数据集包含训练集、验证集和测试集，分别有5691、1465和1376个样本。

提供机构：

dkoterwa

原始信息汇总

数据集概述

数据集名称

Korean Semantic Textual Similarity (KorSTS) Dataset (with converted scores)

数据集特征

id: int64
genre: string
sentence1: string
sentence2: string
score: float64

数据集分割

train: 5691 examples, 1034815 bytes
valid: 1465 examples, 297254 bytes
test: 1376 examples, 247409 bytes

数据集大小

下载大小: 837346 bytes
总大小: 1579478 bytes

许可证

cc-by-sa-4.0

引用信息

引用论文: Ham, Jiyeon et al. "KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language Understanding." arXiv preprint arXiv:2004.03289 (2020).

5,000+

优质数据集

54 个

任务类型

进入经典数据集