PhilipMay/stsb_multi_mt

Hugging Face2024-05-14 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/PhilipMay/stsb_multi_mt

下载链接

链接失效反馈

资源简介：

STSb Multi MT数据集是一个多语言的语义文本相似度（STS）基准数据集，包含了德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、俄语和中文的翻译版本。该数据集的主要用途是用于训练句子嵌入模型，如T-Systems-onsite/cross-en-de-roberta-sentence-transformer。数据集的结构包括句子对和它们的相似度评分，评分范围从0到5。数据集支持的任务包括文本分类和语义相似度评分。数据集的创建过程涉及众包和机器翻译，源数据来自STSbenchmark数据集。

提供机构：

PhilipMay

原始信息汇总

数据集概述

名称: STSb Multi MT

语言: 德语 (de), 英语 (en), 西班牙语 (es), 法语 (fr), 意大利语 (it), 荷兰语 (nl), 波兰语 (pl), 葡萄牙语 (pt), 俄语 (ru), 中文 (zh)

许可证: 其他

多语言性: 多语言

大小: 10K<n<100K

源数据集: 扩展自其他-sts-b

任务类别: 文本分类

任务ID: 文本评分, 语义相似性评分

标签: sentence-transformers

数据集大小和下载大小:

德语: 数据集大小 1307859 字节, 下载大小 823156 字节
英语: 数据集大小 1106317 字节, 下载大小 720594 字节
西班牙语: 数据集大小 1326943 字节, 下载大小 803220 字节
法语: 数据集大小 1364700 字节, 下载大小 828209 字节
意大利语: 数据集大小 1306293 字节, 下载大小 813106 字节
荷兰语: 数据集大小 1251434 字节, 下载大小 786341 字节
波兰语: 数据集大小 1241433 字节, 下载大小 832282 字节
葡萄牙语: 数据集大小 1284054 字节, 下载大小 799737 字节
俄语: 数据集大小 2077925 字节, 下载大小 1088400 字节
中文: 数据集大小 1045055 字节, 下载大小 715580 字节

数据集结构:

特征:
- sentence1: 字符串
- sentence2: 字符串
- similarity_score: 浮点数 (32位)
数据分割:
- 训练集: 5749 样本
- 验证集: 1500 样本
- 测试集: 1379 样本

数据集创建:

语言创建者: 众包, 发现, 机器生成
注释创建者: 众包

搜集汇总

数据集介绍

构建方式

构建该数据集的方法是通过对原始英语STSbenchmark数据集进行多语言翻译。首先，从SemEval在2012年至2017年间组织的STS任务中选取了一组英语数据集。这些数据集涵盖了来自图像标题、新闻标题和用户论坛的文本。然后，使用deepl.com进行多语言翻译，将原始英语数据集翻译成德语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、俄语和中文。翻译后的数据集包含了成对的句子及其相似度评分。

特点

该数据集的特点是其多语言性和多样性。它包含了多种语言的翻译数据，使得模型可以在跨语言语义相似度评估任务上进行训练和评估。数据集中的句子对覆盖了从完全等价到完全不相似的各种相似度，这为模型提供了广泛的训练和评估场景。此外，数据集的规模适中，包括训练、验证和测试三个数据集，方便研究者进行实验。

使用方法

使用该数据集的方法是通过加载特定语言的训练、验证或测试数据集。例如，使用Python的datasets库可以加载德语验证数据集，代码如下： python from datasets import load_dataset dataset = load_dataset("stsb_multi_mt", name="de", split="dev") 同样，也可以加载英语训练数据集，代码如下： python from datasets import load_dataset dataset = load_dataset("stsb_multi_mt", name="en", split="train") 加载后的数据集是一个包含句子对和相似度评分的字典，可以用于训练和评估语义相似度评估模型。

背景与挑战

背景概述

在自然语言处理领域，语义相似度评估是一项关键任务，它对于各种应用，如问答系统、信息检索和机器翻译等，都至关重要。为了促进这一领域的研究，Philip May 创建了 STSb Multi MT 数据集，该数据集是对 STSbenchmark 数据集的多语言扩展，涵盖了德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、俄语和中文等十种语言。该数据集收集了来自图像标题、新闻标题和用户论坛的文本，旨在帮助研究人员训练和评估句子嵌入模型，如 T-Systems-onsite/cross-en-de-roberta-sentence-transformer。STSb Multi MT 数据集自创建以来，已成为多语言语义相似度评估的重要资源，推动了该领域的发展。

当前挑战

尽管 STSb Multi MT 数据集在多语言语义相似度评估方面取得了显著进展，但它也面临一些挑战。首先，数据集的构建依赖于自动翻译，这可能引入翻译误差，从而影响评估的准确性。其次，数据集的规模相对较小，这可能限制了模型在更广泛场景下的泛化能力。此外，由于数据集的多语言特性，不同语言的语义相似度评估可能存在文化差异和语言特性差异，这需要研究人员在处理数据时予以考虑。为了解决这些挑战，未来的研究可能需要探索更精确的翻译技术，扩大数据集规模，并深入分析不同语言间的语义相似度评估差异。

常用场景

经典使用场景

在自然语言处理领域，语义相似度评分是一个基础且关键的任务。STSb Multi MT数据集提供了一个多语言的语义相似度评分基准，包括德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、俄语和中文。该数据集由两个句子及其相似度评分组成，相似度评分的范围从0到5，其中5表示两个句子完全等价。这种结构使得数据集适用于训练和评估句子嵌入模型，如T-Systems-onsite/cross-en-de-roberta-sentence-transformer，这些模型可以学习句子之间的语义关系。

实际应用

在实用场景中，STSb Multi MT数据集可以应用于机器翻译、文本摘要、问答系统等自然语言处理任务。例如，在机器翻译中，该数据集可以帮助模型学习不同语言之间的语义相似性，从而提高翻译的准确性和流畅性。此外，该数据集还可以用于评估文本摘要和问答系统的性能，帮助开发者改进这些系统的语义理解能力。

衍生相关工作

基于STSb Multi MT数据集，研究者们进行了许多相关的工作。例如，一些研究者使用该数据集来训练和评估跨语言句子嵌入模型，这些模型可以在不同语言之间进行语义相似度评分。此外，一些研究者还使用该数据集来研究多语言环境下语义理解的问题，从而推动多语言自然语言处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集