dkoterwa/kor-sts

Name: dkoterwa/kor-sts
Creator: dkoterwa
Published: 2023-07-25 09:52:30
License: 暂无描述

Hugging Face2023-07-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dkoterwa/kor-sts

下载链接

链接失效反馈

官方服务：

资源简介：

KorSTS（韩语语义文本相似度）数据集是通过转换特定GitHub仓库中的tsv文件而创建的，旨在为更广泛的受众共享该数据集。由于Pandas库的read_csv方法的特殊性，部分数据因格式问题被删除（训练集中删除了54个，验证集中删除了35个，测试集中删除了1个）。此外，数据集中的None值也被移除（训练集中移除了5个，验证集中移除了1个，测试集中移除了3个）。数据集包含id、genre、sentence1、sentence2和score等特征，分为训练集、验证集和测试集，分别包含5691、1465和1376个样本。

提供机构：

dkoterwa

原始信息汇总

数据集概述

数据集名称

Korean Semantic Textual Similarity (KorSTS) Dataset

数据集特征

id: int64
genre: string
sentence1: string
sentence2: string
score: float64

数据集划分

train: 5691 examples, 1034815 bytes
valid: 1465 examples, 297254 bytes
test: 1376 examples, 247409 bytes

数据集大小

下载大小: 837346 bytes
数据集大小: 1579478 bytes

许可证

cc-by-sa-4.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集