mteb/sts22-crosslingual-sts

Name: mteb/sts22-crosslingual-sts
Creator: mteb
Published: 2025-05-04 16:27:03
License: 暂无描述

Hugging Face2025-05-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mteb/sts22-crosslingual-sts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集支持多种语言，包括阿拉伯语、德语、英语、西班牙语、法语、意大利语、波兰语、俄语、土耳其语和中文。每个语言配置都有对应的训练和测试数据文件。数据集的特征包括id、score、sentence1、sentence2和lang。数据集的分数被反转，从最不相似到最相似排列。2024年7月6日的更新移除了其中一个句子为空的句子对。

This dataset supports multiple languages, including Arabic, German, English, Spanish, French, Italian, Polish, Russian, Turkish, and Chinese. Each language configuration has corresponding training and testing data files. The features of the dataset include id, score, sentence1, sentence2, and lang. The scores in the dataset have been inverted to range from least to most similar. The update on July 6, 2024, removed sentence pairs where one of the sentences was empty.

提供机构：

mteb

原始信息汇总

数据集概述

语言支持

阿拉伯语 (ar)
德语 (de)
英语 (en)
西班牙语 (es)
法语 (fr)
意大利语 (it)
波兰语 (pl)
俄语 (ru)
土耳其语 (tr)
中文 (zh)

数据配置

default
- 测试集: test/*.jsonl.gz
- 训练集: train/*.jsonl.gz
特定语言配置
- fr-pl
  - 测试集: test/fr-pl.jsonl.gz
- en
  - 测试集: test/en.jsonl.gz
  - 训练集: train/en.jsonl.gz
- es-en
  - 测试集: test/es-en.jsonl.gz
- zh
  - 测试集: test/zh.jsonl.gz
- fr
  - 测试集: test/fr.jsonl.gz
  - 训练集: train/fr.jsonl.gz
- de
  - 测试集: test/de.jsonl.gz
  - 训练集: train/de.jsonl.gz
- tr
  - 测试集: test/tr.jsonl.gz
  - 训练集: train/tr.jsonl.gz
- ru
  - 测试集: test/ru.jsonl.gz
- de-en
  - 测试集: test/de-en.jsonl.gz
  - 训练集: train/de-en.jsonl.gz
- pl
  - 测试集: test/pl.jsonl.gz
  - 训练集: train/pl.jsonl.gz
- es
  - 测试集: test/es.jsonl.gz
  - 训练集: train/es.jsonl.gz
- pl-en
  - 测试集: test/pl-en.jsonl.gz
- es-it
  - 测试集: test/es-it.jsonl.gz
- zh-en
  - 测试集: test/zh-en.jsonl.gz
- it
  - 测试集: test/it.jsonl.gz
- de-fr
  - 测试集: test/de-fr.jsonl.gz
- de-pl
  - 测试集: test/de-pl.jsonl.gz
- ar
  - 测试集: test/ar.jsonl.gz
  - 训练集: train/ar.jsonl.gz

数据集特性

数据集中的分数已反转，以表示从最不相似到最相似的顺序。
原始STS22任务中的分数是从最相似到最不相似。

搜集汇总

数据集介绍

构建方式

在跨语言语义相似性评估领域，STS22.v2数据集作为SemEval 2022 Task 8的基准，其构建过程体现了严谨的学术规范。该数据集源自多语言新闻文章相似性任务，通过人工标注方式对句子对进行语义相似度评分。数据涵盖阿拉伯语、中文、德语、英语、法语、意大利语、波兰语、俄语、西班牙语和土耳其语等十种语言，并包含跨语言配对组合。构建过程中特别进行了数据清洗，移除了包含空句子的样本，确保数据质量符合研究需求。

特点

该数据集在跨语言语义理解研究中展现出显著特点。其多语言覆盖范围广泛，不仅包含单语种句子对，还精心设计了跨语言配对，如德语-英语、西班牙语-意大利语等组合，为研究语言间的语义对齐提供了丰富素材。数据来源于新闻领域，句子长度分布从数十字符到数万字符不等，具有真实的文本复杂性。相似度评分采用1到4分的连续尺度，反映了语义相似度的细微差异，为模型评估提供了精细的度量标准。

使用方法

在自然语言处理研究中，该数据集可通过MTEB框架进行标准化评估。研究者只需导入mteb库，调用get_tasks方法加载STS22.v2任务，即可对嵌入模型进行跨语言语义相似性评估。评估过程自动处理多语言配置，支持对特定语言对或整体性能的测试。数据集划分为训练集和测试集，训练集包含4622个样本，测试集包含3958个样本，符合机器学习标准流程。通过该框架，研究者能够系统评估模型在不同语言和跨语言场景下的语义理解能力。

背景与挑战

背景概述

在自然语言处理领域，跨语言语义相似性评估是衡量模型理解多语言文本核心含义的关键任务。STS22.v2数据集源于SemEval 2022国际评测任务，由Xi Chen、Ali Zeynali等研究人员联合构建，并于2022年正式发布。该数据集聚焦于多语言新闻文章的语义相似性计算，覆盖阿拉伯语、中文、德语、英语等十种语言，旨在推动跨语言嵌入模型在真实新闻场景下的性能评估。作为大规模文本嵌入基准的重要组成部分，该数据集为多语言语义表示研究提供了标准化测试平台，显著促进了跨语言信息检索、机器翻译等应用的发展。

当前挑战

跨语言语义相似性任务面临的核心挑战在于如何准确建模不同语言间句子的深层语义关联，尤其在新闻领域，文本包含丰富的文化背景和领域特定表达，增加了模型对齐的难度。构建过程中，数据收集与标注需处理多语言新闻文本的复杂性和规模，确保句子对在不同语言间具有一致的语义评分标准。此外，数据清洗环节需剔除包含空句子的无效样本，以维持数据质量，而多语言配置的多样性也带来了数据平衡与代表性方面的挑战。

常用场景

经典使用场景

在跨语言语义相似性评估领域，STS22.v2数据集作为SemEval 2022 Task 8的核心资源，为研究者提供了多语言新闻文本对的语义相似度标注。该数据集覆盖阿拉伯语、中文、德语、英语等十种语言，其经典应用场景在于评测跨语言嵌入模型在不同语言对间捕捉语义一致性的能力。通过计算句子对之间的相似度得分，模型能够在多语言环境下进行精准的语义对齐，为跨语言信息检索和文本匹配任务奠定基础。

衍生相关工作

围绕该数据集衍生的经典工作包括MTEB（Massive Text Embedding Benchmark）框架的扩展，该框架将STS22.v2纳入其多语言评估体系。后续研究如MMTEB（Massive Multilingual Text Embedding Benchmark）进一步整合了该数据集，构建了更全面的多语言嵌入评估基准。这些工作推动了像Sentence-BERT多语言变体、LASER等多语言嵌入模型的发展，并在SemEval 2022竞赛中催生了多种创新的跨语言相似度计算方法。

数据集最近研究