quarkss/stsb-indo-mt

Name: quarkss/stsb-indo-mt
Creator: quarkss
Published: 2024-07-17 09:47:04
License: 暂无描述

Hugging Face2024-07-17 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/quarkss/stsb-indo-mt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为STSB-indo-mt，是基于Semantic Textual Similarity Benchmark (STSB)数据集的一个变体。原始STSB数据集包含从新闻标题、视频和图像字幕以及自然语言推理数据中提取的句子对，每对句子由人工标注了1到5的相似度评分。该变体通过DeepL机器翻译将内容翻译成印尼语，并将相似度评分归一化到0到1之间。数据集包含三个列：sentence1、sentence2和score，分别表示句子1、句子2和归一化后的相似度评分。数据集分为训练集、验证集和测试集，分别包含5749、1500和1379个样本。

The STSB-indo-mt dataset contains sentence pairs and their similarity scores, which are drawn from news headlines, video and image captions, and natural language inference data. Each sentence pair has a similarity score ranging from 1 to 5, but in this variant, these scores are normalized to between 0 and 1. The dataset includes three main features: sentence1 (string type), sentence2 (string type), and score (float type). The dataset is divided into train, validation, and test sets, containing 5749, 1500, and 1379 samples respectively.

提供机构：

quarkss

原始信息汇总

数据集概述

基本信息

语言: 印度尼西亚语
多语言性: 单语种
数据集大小: 1K<n<10K
任务类别:
- 特征提取
- 句子相似度
标签: sentence-transformers
数据集名称: STSB-indo-mt

数据集结构

特征:
- sentence1: 字符串类型
- sentence2: 字符串类型
- score: 浮点数类型
分割:
- train: 5749个样本, 755098字节
- validation: 1500个样本, 216064字节
- test: 1379个样本, 169987字节
下载大小: 720899字节
数据集总大小: 1141149字节

配置

配置名称: default
- 数据文件路径:
  - train: data/stsb.train.*
  - validation: data/stsb.validation.*
  - test: data/stsb.test.*

数据集详情

列: "sentence1", "sentence2", "score"
列类型: str, str, float
示例: python { sentence1: Seorang pria sedang memainkan seruling besar., sentence2: Seorang pria sedang memainkan seruling., score: 0.76, }
收集策略: 从STSB数据集中读取句子和分数，并将分数除以5进行归一化。
去重: 否

5,000+

优质数据集

54 个

任务类型

进入经典数据集