timpal0l/stsb_mt_sv
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/timpal0l/stsb_mt_sv
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个瑞典语的机器翻译版本,用于语义文本相似性任务。数据集包含句子对和它们的相似性评分,分为训练集、验证集和测试集。数据集的创建者是通过机器翻译生成的,并且数据集的语言为瑞典语。数据集的来源是STS-B的扩展版本,任务类别为文本分类,具体任务为文本评分和语义相似性评分。
该数据集是一个瑞典语的机器翻译版本,用于语义文本相似性任务。数据集包含句子对和它们的相似性评分,分为训练集、验证集和测试集。数据集的创建者是通过机器翻译生成的,并且数据集的语言为瑞典语。数据集的来源是STS-B的扩展版本,任务类别为文本分类,具体任务为文本评分和语义相似性评分。
提供机构:
timpal0l
原始信息汇总
数据集概述
数据集名称
- 名称: Swedish Machine Translated STS-B
数据集摘要
- 摘要: 该数据集是用于语义文本相似性的瑞典语机器翻译版本。
支持的任务和排行榜
- 任务: 用于评估瑞典语文本的相似性。
语言
- 语言: 瑞典语 (
sv)
数据集结构
数据实例
-
示例:
{score: 4.2, sentence1: Undrar om jultomten kommer i år pga Corona..?, sentence2: Jag undrar om jultomen kommer hit i år med tanke på covid-19, }
数据字段
- score: 浮点数,表示语义相似度分数,范围从0.0(最低)到5.0(最高)。
- sentence1: 字符串,表示一段文本。
- sentence2: 字符串,用于与
sentence1进行语义比较。
数据分割
- 分割: 训练集、验证集和测试集。
- 大小:
训练集 验证集 测试集 5749 1500 1379
数据集创建
数据集创建者
- 创建者: @timpal0l
许可证信息
- 许可证: 未知
引用信息
-
引用:
@article{isbister2020not, title={Why Not Simply Translate? A First Swedish Evaluation Benchmark for Semantic Similarity}, author={Isbister, Tim and Sahlgren, Magnus}, journal={arXiv preprint arXiv:2009.03116}, year={2020} }



