quarkss/stsb-indo-mt
收藏Hugging Face2024-07-17 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/quarkss/stsb-indo-mt
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为STSB-indo-mt,是基于Semantic Textual Similarity Benchmark (STSB)数据集的一个变体。原始STSB数据集包含从新闻标题、视频和图像字幕以及自然语言推理数据中提取的句子对,每对句子由人工标注了1到5的相似度评分。该变体通过DeepL机器翻译将内容翻译成印尼语,并将相似度评分归一化到0到1之间。数据集包含三个列:sentence1、sentence2和score,分别表示句子1、句子2和归一化后的相似度评分。数据集分为训练集、验证集和测试集,分别包含5749、1500和1379个样本。
The STSB-indo-mt dataset contains sentence pairs and their similarity scores, which are drawn from news headlines, video and image captions, and natural language inference data. Each sentence pair has a similarity score ranging from 1 to 5, but in this variant, these scores are normalized to between 0 and 1. The dataset includes three main features: sentence1 (string type), sentence2 (string type), and score (float type). The dataset is divided into train, validation, and test sets, containing 5749, 1500, and 1379 samples respectively.
提供机构:
quarkss
原始信息汇总
数据集概述
基本信息
- 语言: 印度尼西亚语
- 多语言性: 单语种
- 数据集大小: 1K<n<10K
- 任务类别:
- 特征提取
- 句子相似度
- 标签: sentence-transformers
- 数据集名称: STSB-indo-mt
数据集结构
- 特征:
sentence1: 字符串类型sentence2: 字符串类型score: 浮点数类型
- 分割:
train: 5749个样本, 755098字节validation: 1500个样本, 216064字节test: 1379个样本, 169987字节
- 下载大小: 720899字节
- 数据集总大小: 1141149字节
配置
- 配置名称: default
- 数据文件路径:
train: data/stsb.train.*validation: data/stsb.validation.*test: data/stsb.test.*
- 数据文件路径:
数据集详情
-
列: "sentence1", "sentence2", "score"
-
列类型:
str,str,float -
示例: python { sentence1: Seorang pria sedang memainkan seruling besar., sentence2: Seorang pria sedang memainkan seruling., score: 0.76, }
-
收集策略: 从STSB数据集中读取句子和分数,并将分数除以5进行归一化。
-
去重: 否



