five

dkoterwa/kor-sts

收藏
Hugging Face2023-07-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dkoterwa/kor-sts
下载链接
链接失效反馈
官方服务:
资源简介:
KorSTS(韩语语义文本相似度)数据集是通过转换特定GitHub仓库中的tsv文件而创建的,旨在为更广泛的受众共享该数据集。由于Pandas库的read_csv方法的特殊性,部分数据因格式问题被删除(训练集中删除了54个,验证集中删除了35个,测试集中删除了1个)。此外,数据集中的None值也被移除(训练集中移除了5个,验证集中移除了1个,测试集中移除了3个)。数据集包含id、genre、sentence1、sentence2和score等特征,分为训练集、验证集和测试集,分别包含5691、1465和1376个样本。

KorSTS(韩语语义文本相似度)数据集是通过转换特定GitHub仓库中的tsv文件而创建的,旨在为更广泛的受众共享该数据集。由于Pandas库的read_csv方法的特殊性,部分数据因格式问题被删除(训练集中删除了54个,验证集中删除了35个,测试集中删除了1个)。此外,数据集中的None值也被移除(训练集中移除了5个,验证集中移除了1个,测试集中移除了3个)。数据集包含id、genre、sentence1、sentence2和score等特征,分为训练集、验证集和测试集,分别包含5691、1465和1376个样本。
提供机构:
dkoterwa
原始信息汇总

数据集概述

数据集名称

Korean Semantic Textual Similarity (KorSTS) Dataset

数据集特征

  • id: int64
  • genre: string
  • sentence1: string
  • sentence2: string
  • score: float64

数据集划分

  • train: 5691 examples, 1034815 bytes
  • valid: 1465 examples, 297254 bytes
  • test: 1376 examples, 247409 bytes

数据集大小

  • 下载大小: 837346 bytes
  • 数据集大小: 1579478 bytes

许可证

cc-by-sa-4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作