mteb/stsb_multi_mt

Name: mteb/stsb_multi_mt
Creator: mteb
Published: 2025-05-04 16:27:11
License: 暂无描述

Hugging Face2025-05-04 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/mteb/stsb_multi_mt

下载链接

链接失效反馈

官方服务：

资源简介：

STSb Multi MT数据集是一个多语言的语义文本相似性（STS）基准数据集，包含德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、俄语和中文的句子对及其相似性评分。数据集基于STSbenchmark数据集，并通过deepl.com进行了多语言翻译。数据集可用于训练句子嵌入模型，如T-Systems-onsite/cross-en-de-roberta-sentence-transformer。数据集包含训练集、开发集和测试集，分别包含5749、1500和1379个样本。

提供机构：

mteb

原始信息汇总

数据集概述

数据集名称

名称: STSb Multi MT

语言

支持语言: de, en, es, fr, it, nl, pl, pt, ru, zh

许可证

许可证类型: other

数据集大小

大小范围: 10K<n<100K

任务类别

任务类别: text-classification

具体任务

任务ID: text-scoring, semantic-similarity-scoring

数据集结构

数据文件配置:
- 默认配置:
  - 训练集: train/*.parquet
  - 验证集: dev/*.parquet
  - 测试集: test/*.parquet
- 特定语言配置:
  - 德语: de.parquet (训练、验证、测试)
  - 法语: fr.parquet (训练、验证、测试)
  - 俄语: ru.parquet (训练、验证、测试)
  - 中文: zh.parquet (训练、验证、测试)
  - 西班牙语: es.parquet (训练、验证、测试)
  - 意大利语: it.parquet (训练、验证、测试)
  - 英语: en.parquet (训练、验证、测试)
  - 葡萄牙语: pt.parquet (训练、验证、测试)
  - 荷兰语: nl.parquet (训练、验证、测试)
  - 波兰语: pl.parquet (训练、验证、测试)

数据实例

数据实例结构:
- sentence1: 第一句文本
- sentence2: 第二句文本
- similarity_score: 相似度分数（0.0至5.0的浮点数）

数据集创建

语言创建者: crowdsourced, found, machine-generated
注释创建者: crowdsourced
源数据集: extended|other-sts-b

使用示例

加载德语验证集: python from datasets import load_dataset dataset = load_dataset("stsb_multi_mt", name="de", split="dev")
加载英语训练集: python from datasets import load_dataset dataset = load_dataset("stsb_multi_mt", name="en", split="train")

搜集汇总

数据集介绍

构建方式

本数据集的构建基于SemEval自2012年至2017年间组织的STS任务中使用的英文数据集的精选部分，涵盖了图像标题、新闻标题和用户论坛等文本来源。构建者采用deepl.com翻译服务将英文原始数据集翻译成了多种语言，旨在为训练句子嵌入模型提供支持。

使用方法

使用该数据集时，用户可以根据需要选择不同的语言配置。通过HuggingFace的datasets库，可以轻松加载特定语言的训练集、验证集或测试集。例如，加载德语验证集的代码为：`dataset = load_dataset("stsb_multi_mt", name="de", split="dev")`。加载英语训练集的代码为：`dataset = load_dataset("stsb_multi_mt", name="en", split="train")`。

背景与挑战

背景概述

STSb Multi MT数据集，是在SemEval 2012至2017年期间组织的语义文本相似度（STS）任务中使用的英语数据集的精选集合。该数据集涵盖了来自图像标题、新闻标题和用户论坛的文本。该数据集的多语言翻译由deepl.com完成，旨在训练如T-Systems-onsite/cross-en-de-roberta-sentence-transformer等句子嵌入模型，为自然语言处理任务提供支持。该数据集由众包和机器生成，包含了德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、俄语和中文等多种语言，规模在10K到100K之间。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：确保不同语言翻译的准确性和一致性，以及处理众包数据可能带来的质量控制和偏见问题。在研究领域问题上，STSb Multi MT数据集面临的挑战是如何提高跨语言句子相似度计算的准确性和鲁棒性，特别是在处理含有细微差别或文化特定表达的语言对时。

常用场景

经典使用场景

在自然语言处理领域中，STSb Multi MT数据集以其多语种特性，被广泛用于训练和评估句子相似度模型。经典的使用场景包括，构建跨语言的句子嵌入模型，该模型能够捕捉不同语言中句子的语义相似度，进而应用于机器翻译、信息检索和问答系统等任务。

解决学术问题

该数据集解决了学术研究中多语言环境下句子语义相似度评估的难题，提供了不同语言之间相似度评分的标准数据，有助于研究人员理解和比较跨语言语义表示的性能，从而推动多语言自然语言处理技术的发展。

实际应用

在实际应用中，STSb Multi MT数据集可用于提升多语言信息检索系统的准确性，优化机器翻译的语义对齐，以及增强跨语言问答系统的响应相关性，为多语言交流和处理提供了强有力的数据支撑。

数据集最近研究