five

quarkss/stsb-indo-mt

收藏
Hugging Face2024-07-17 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/quarkss/stsb-indo-mt
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为STSB-indo-mt,是基于Semantic Textual Similarity Benchmark (STSB)数据集的一个变体。原始STSB数据集包含从新闻标题、视频和图像字幕以及自然语言推理数据中提取的句子对,每对句子由人工标注了1到5的相似度评分。该变体通过DeepL机器翻译将内容翻译成印尼语,并将相似度评分归一化到0到1之间。数据集包含三个列:sentence1、sentence2和score,分别表示句子1、句子2和归一化后的相似度评分。数据集分为训练集、验证集和测试集,分别包含5749、1500和1379个样本。

The STSB-indo-mt dataset contains sentence pairs and their similarity scores, which are drawn from news headlines, video and image captions, and natural language inference data. Each sentence pair has a similarity score ranging from 1 to 5, but in this variant, these scores are normalized to between 0 and 1. The dataset includes three main features: sentence1 (string type), sentence2 (string type), and score (float type). The dataset is divided into train, validation, and test sets, containing 5749, 1500, and 1379 samples respectively.
提供机构:
quarkss
原始信息汇总

数据集概述

基本信息

  • 语言: 印度尼西亚语
  • 多语言性: 单语种
  • 数据集大小: 1K<n<10K
  • 任务类别:
    • 特征提取
    • 句子相似度
  • 标签: sentence-transformers
  • 数据集名称: STSB-indo-mt

数据集结构

  • 特征:
    • sentence1: 字符串类型
    • sentence2: 字符串类型
    • score: 浮点数类型
  • 分割:
    • train: 5749个样本, 755098字节
    • validation: 1500个样本, 216064字节
    • test: 1379个样本, 169987字节
  • 下载大小: 720899字节
  • 数据集总大小: 1141149字节

配置

  • 配置名称: default
    • 数据文件路径:
      • train: data/stsb.train.*
      • validation: data/stsb.validation.*
      • test: data/stsb.test.*

数据集详情

  • : "sentence1", "sentence2", "score"

  • 列类型: str, str, float

  • 示例: python { sentence1: Seorang pria sedang memainkan seruling besar., sentence2: Seorang pria sedang memainkan seruling., score: 0.76, }

  • 收集策略: 从STSB数据集中读取句子和分数,并将分数除以5进行归一化。

  • 去重: 否

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作