PhilipMay/stsb_multi_mt
收藏Hugging Face2024-05-14 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/PhilipMay/stsb_multi_mt
下载链接
链接失效反馈官方服务:
资源简介:
STSb Multi MT数据集是一个多语言的语义文本相似度(STS)基准数据集,包含了德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、俄语和中文的翻译版本。该数据集的主要用途是用于训练句子嵌入模型,如T-Systems-onsite/cross-en-de-roberta-sentence-transformer。数据集的结构包括句子对和它们的相似度评分,评分范围从0到5。数据集支持的任务包括文本分类和语义相似度评分。数据集的创建过程涉及众包和机器翻译,源数据来自STSbenchmark数据集。
The STSb Multi MT dataset is a multilingual semantic textual similarity (STS) benchmark dataset that includes translated versions in German, English, Spanish, French, Italian, Dutch, Polish, Portuguese, Russian and Chinese. Its primary use case is training sentence embedding models, such as T-Systems-onsite/cross-en-de-roberta-sentence-transformer. The dataset structure consists of sentence pairs and their similarity scores, with the score range spanning from 0 to 5. The tasks supported by the dataset include text classification and semantic similarity scoring. The dataset was created through crowdsourcing and machine translation, with its source data originating from the STSbenchmark dataset.
提供机构:
PhilipMay
原始信息汇总
数据集概述
名称: STSb Multi MT
语言: 德语 (de), 英语 (en), 西班牙语 (es), 法语 (fr), 意大利语 (it), 荷兰语 (nl), 波兰语 (pl), 葡萄牙语 (pt), 俄语 (ru), 中文 (zh)
许可证: 其他
多语言性: 多语言
大小: 10K<n<100K
源数据集: 扩展自其他-sts-b
任务类别: 文本分类
任务ID: 文本评分, 语义相似性评分
标签: sentence-transformers
数据集大小和下载大小:
- 德语: 数据集大小 1307859 字节, 下载大小 823156 字节
- 英语: 数据集大小 1106317 字节, 下载大小 720594 字节
- 西班牙语: 数据集大小 1326943 字节, 下载大小 803220 字节
- 法语: 数据集大小 1364700 字节, 下载大小 828209 字节
- 意大利语: 数据集大小 1306293 字节, 下载大小 813106 字节
- 荷兰语: 数据集大小 1251434 字节, 下载大小 786341 字节
- 波兰语: 数据集大小 1241433 字节, 下载大小 832282 字节
- 葡萄牙语: 数据集大小 1284054 字节, 下载大小 799737 字节
- 俄语: 数据集大小 2077925 字节, 下载大小 1088400 字节
- 中文: 数据集大小 1045055 字节, 下载大小 715580 字节
数据集结构:
- 特征:
sentence1: 字符串sentence2: 字符串similarity_score: 浮点数 (32位)
- 数据分割:
- 训练集: 5749 样本
- 验证集: 1500 样本
- 测试集: 1379 样本
数据集创建:
- 语言创建者: 众包, 发现, 机器生成
- 注释创建者: 众包
搜集汇总
数据集介绍

构建方式
构建该数据集的方法是通过对原始英语STSbenchmark数据集进行多语言翻译。首先,从SemEval在2012年至2017年间组织的STS任务中选取了一组英语数据集。这些数据集涵盖了来自图像标题、新闻标题和用户论坛的文本。然后,使用deepl.com进行多语言翻译,将原始英语数据集翻译成德语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、俄语和中文。翻译后的数据集包含了成对的句子及其相似度评分。
特点
该数据集的特点是其多语言性和多样性。它包含了多种语言的翻译数据,使得模型可以在跨语言语义相似度评估任务上进行训练和评估。数据集中的句子对覆盖了从完全等价到完全不相似的各种相似度,这为模型提供了广泛的训练和评估场景。此外,数据集的规模适中,包括训练、验证和测试三个数据集,方便研究者进行实验。
使用方法
使用该数据集的方法是通过加载特定语言的训练、验证或测试数据集。例如,使用Python的datasets库可以加载德语验证数据集,代码如下:
python
from datasets import load_dataset
dataset = load_dataset("stsb_multi_mt", name="de", split="dev")
同样,也可以加载英语训练数据集,代码如下:
python
from datasets import load_dataset
dataset = load_dataset("stsb_multi_mt", name="en", split="train")
加载后的数据集是一个包含句子对和相似度评分的字典,可以用于训练和评估语义相似度评估模型。
背景与挑战
背景概述
在自然语言处理领域,语义相似度评估是一项关键任务,它对于各种应用,如问答系统、信息检索和机器翻译等,都至关重要。为了促进这一领域的研究,Philip May 创建了 STSb Multi MT 数据集,该数据集是对 STSbenchmark 数据集的多语言扩展,涵盖了德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、俄语和中文等十种语言。该数据集收集了来自图像标题、新闻标题和用户论坛的文本,旨在帮助研究人员训练和评估句子嵌入模型,如 T-Systems-onsite/cross-en-de-roberta-sentence-transformer。STSb Multi MT 数据集自创建以来,已成为多语言语义相似度评估的重要资源,推动了该领域的发展。
当前挑战
尽管 STSb Multi MT 数据集在多语言语义相似度评估方面取得了显著进展,但它也面临一些挑战。首先,数据集的构建依赖于自动翻译,这可能引入翻译误差,从而影响评估的准确性。其次,数据集的规模相对较小,这可能限制了模型在更广泛场景下的泛化能力。此外,由于数据集的多语言特性,不同语言的语义相似度评估可能存在文化差异和语言特性差异,这需要研究人员在处理数据时予以考虑。为了解决这些挑战,未来的研究可能需要探索更精确的翻译技术,扩大数据集规模,并深入分析不同语言间的语义相似度评估差异。
常用场景
经典使用场景
在自然语言处理领域,语义相似度评分是一个基础且关键的任务。STSb Multi MT数据集提供了一个多语言的语义相似度评分基准,包括德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、俄语和中文。该数据集由两个句子及其相似度评分组成,相似度评分的范围从0到5,其中5表示两个句子完全等价。这种结构使得数据集适用于训练和评估句子嵌入模型,如T-Systems-onsite/cross-en-de-roberta-sentence-transformer,这些模型可以学习句子之间的语义关系。
实际应用
在实用场景中,STSb Multi MT数据集可以应用于机器翻译、文本摘要、问答系统等自然语言处理任务。例如,在机器翻译中,该数据集可以帮助模型学习不同语言之间的语义相似性,从而提高翻译的准确性和流畅性。此外,该数据集还可以用于评估文本摘要和问答系统的性能,帮助开发者改进这些系统的语义理解能力。
衍生相关工作
基于STSb Multi MT数据集,研究者们进行了许多相关的工作。例如,一些研究者使用该数据集来训练和评估跨语言句子嵌入模型,这些模型可以在不同语言之间进行语义相似度评分。此外,一些研究者还使用该数据集来研究多语言环境下语义理解的问题,从而推动多语言自然语言处理技术的发展。
以上内容由遇见数据集搜集并总结生成



