dkoterwa/kor-sts
收藏Hugging Face2023-07-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dkoterwa/kor-sts
下载链接
链接失效反馈官方服务:
资源简介:
KorSTS(韩语语义文本相似度)数据集是通过转换特定GitHub仓库中的tsv文件而创建的,旨在为更广泛的受众共享该数据集。由于Pandas库的read_csv方法的特殊性,部分数据因格式问题被删除(训练集中删除了54个,验证集中删除了35个,测试集中删除了1个)。此外,数据集中的None值也被移除(训练集中移除了5个,验证集中移除了1个,测试集中移除了3个)。数据集包含id、genre、sentence1、sentence2和score等特征,分为训练集、验证集和测试集,分别包含5691、1465和1376个样本。
KorSTS(韩语语义文本相似度)数据集是通过转换特定GitHub仓库中的tsv文件而创建的,旨在为更广泛的受众共享该数据集。由于Pandas库的read_csv方法的特殊性,部分数据因格式问题被删除(训练集中删除了54个,验证集中删除了35个,测试集中删除了1个)。此外,数据集中的None值也被移除(训练集中移除了5个,验证集中移除了1个,测试集中移除了3个)。数据集包含id、genre、sentence1、sentence2和score等特征,分为训练集、验证集和测试集,分别包含5691、1465和1376个样本。
提供机构:
dkoterwa
原始信息汇总
数据集概述
数据集名称
Korean Semantic Textual Similarity (KorSTS) Dataset
数据集特征
- id: int64
- genre: string
- sentence1: string
- sentence2: string
- score: float64
数据集划分
- train: 5691 examples, 1034815 bytes
- valid: 1465 examples, 297254 bytes
- test: 1376 examples, 247409 bytes
数据集大小
- 下载大小: 837346 bytes
- 数据集大小: 1579478 bytes
许可证
cc-by-sa-4.0



