five

timpal0l/stsb_mt_sv

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/timpal0l/stsb_mt_sv
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个瑞典语的机器翻译版本,用于语义文本相似性任务。数据集包含句子对和它们的相似性评分,分为训练集、验证集和测试集。数据集的创建者是通过机器翻译生成的,并且数据集的语言为瑞典语。数据集的来源是STS-B的扩展版本,任务类别为文本分类,具体任务为文本评分和语义相似性评分。

该数据集是一个瑞典语的机器翻译版本,用于语义文本相似性任务。数据集包含句子对和它们的相似性评分,分为训练集、验证集和测试集。数据集的创建者是通过机器翻译生成的,并且数据集的语言为瑞典语。数据集的来源是STS-B的扩展版本,任务类别为文本分类,具体任务为文本评分和语义相似性评分。
提供机构:
timpal0l
原始信息汇总

数据集概述

数据集名称

  • 名称: Swedish Machine Translated STS-B

数据集摘要

  • 摘要: 该数据集是用于语义文本相似性的瑞典语机器翻译版本。

支持的任务和排行榜

  • 任务: 用于评估瑞典语文本的相似性。

语言

  • 语言: 瑞典语 (sv)

数据集结构

数据实例

  • 示例:

    {score: 4.2, sentence1: Undrar om jultomten kommer i år pga Corona..?, sentence2: Jag undrar om jultomen kommer hit i år med tanke på covid-19, }

数据字段

  • score: 浮点数,表示语义相似度分数,范围从0.0(最低)到5.0(最高)。
  • sentence1: 字符串,表示一段文本。
  • sentence2: 字符串,用于与sentence1进行语义比较。

数据分割

  • 分割: 训练集、验证集和测试集。
  • 大小:
    训练集 验证集 测试集
    5749 1500 1379

数据集创建

数据集创建者

  • 创建者: @timpal0l

许可证信息

  • 许可证: 未知

引用信息

  • 引用:

    @article{isbister2020not, title={Why Not Simply Translate? A First Swedish Evaluation Benchmark for Semantic Similarity}, author={Isbister, Tim and Sahlgren, Magnus}, journal={arXiv preprint arXiv:2009.03116}, year={2020} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作