five

mteb/stsb_multi_mt

收藏
Hugging Face2025-05-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mteb/stsb_multi_mt
下载链接
链接失效反馈
官方服务:
资源简介:
STSb Multi MT数据集是一个多语言的语义文本相似性(STS)基准数据集,包含德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、俄语和中文的句子对及其相似性评分。数据集基于STSbenchmark数据集,并通过deepl.com进行了多语言翻译。数据集可用于训练句子嵌入模型,如T-Systems-onsite/cross-en-de-roberta-sentence-transformer。数据集包含训练集、开发集和测试集,分别包含5749、1500和1379个样本。

STSb Multi MT数据集是一个多语言的语义文本相似性(STS)基准数据集,包含德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、俄语和中文的句子对及其相似性评分。数据集基于STSbenchmark数据集,并通过deepl.com进行了多语言翻译。数据集可用于训练句子嵌入模型,如T-Systems-onsite/cross-en-de-roberta-sentence-transformer。数据集包含训练集、开发集和测试集,分别包含5749、1500和1379个样本。
提供机构:
mteb
原始信息汇总

数据集概述

数据集名称

  • 名称: STSb Multi MT

语言

  • 支持语言: de, en, es, fr, it, nl, pl, pt, ru, zh

许可证

  • 许可证类型: other

数据集大小

  • 大小范围: 10K<n<100K

任务类别

  • 任务类别: text-classification

具体任务

  • 任务ID: text-scoring, semantic-similarity-scoring

数据集结构

  • 数据文件配置:
    • 默认配置:
      • 训练集: train/*.parquet
      • 验证集: dev/*.parquet
      • 测试集: test/*.parquet
    • 特定语言配置:
      • 德语: de.parquet (训练、验证、测试)
      • 法语: fr.parquet (训练、验证、测试)
      • 俄语: ru.parquet (训练、验证、测试)
      • 中文: zh.parquet (训练、验证、测试)
      • 西班牙语: es.parquet (训练、验证、测试)
      • 意大利语: it.parquet (训练、验证、测试)
      • 英语: en.parquet (训练、验证、测试)
      • 葡萄牙语: pt.parquet (训练、验证、测试)
      • 荷兰语: nl.parquet (训练、验证、测试)
      • 波兰语: pl.parquet (训练、验证、测试)

数据实例

  • 数据实例结构:
    • sentence1: 第一句文本
    • sentence2: 第二句文本
    • similarity_score: 相似度分数(0.0至5.0的浮点数)

数据集创建

  • 语言创建者: crowdsourced, found, machine-generated
  • 注释创建者: crowdsourced
  • 源数据集: extended|other-sts-b

使用示例

  • 加载德语验证集: python from datasets import load_dataset dataset = load_dataset("stsb_multi_mt", name="de", split="dev")

  • 加载英语训练集: python from datasets import load_dataset dataset = load_dataset("stsb_multi_mt", name="en", split="train")

搜集汇总
数据集介绍
main_image_url
构建方式
本数据集的构建基于SemEval自2012年至2017年间组织的STS任务中使用的英文数据集的精选部分,涵盖了图像标题、新闻标题和用户论坛等文本来源。构建者采用deepl.com翻译服务将英文原始数据集翻译成了多种语言,旨在为训练句子嵌入模型提供支持。
使用方法
使用该数据集时,用户可以根据需要选择不同的语言配置。通过HuggingFace的datasets库,可以轻松加载特定语言的训练集、验证集或测试集。例如,加载德语验证集的代码为:`dataset = load_dataset("stsb_multi_mt", name="de", split="dev")`。加载英语训练集的代码为:`dataset = load_dataset("stsb_multi_mt", name="en", split="train")`。
背景与挑战
背景概述
STSb Multi MT数据集,是在SemEval 2012至2017年期间组织的语义文本相似度(STS)任务中使用的英语数据集的精选集合。该数据集涵盖了来自图像标题、新闻标题和用户论坛的文本。该数据集的多语言翻译由deepl.com完成,旨在训练如T-Systems-onsite/cross-en-de-roberta-sentence-transformer等句子嵌入模型,为自然语言处理任务提供支持。该数据集由众包和机器生成,包含了德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、俄语和中文等多种语言,规模在10K到100K之间。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:确保不同语言翻译的准确性和一致性,以及处理众包数据可能带来的质量控制和偏见问题。在研究领域问题上,STSb Multi MT数据集面临的挑战是如何提高跨语言句子相似度计算的准确性和鲁棒性,特别是在处理含有细微差别或文化特定表达的语言对时。
常用场景
经典使用场景
在自然语言处理领域中,STSb Multi MT数据集以其多语种特性,被广泛用于训练和评估句子相似度模型。经典的使用场景包括,构建跨语言的句子嵌入模型,该模型能够捕捉不同语言中句子的语义相似度,进而应用于机器翻译、信息检索和问答系统等任务。
解决学术问题
该数据集解决了学术研究中多语言环境下句子语义相似度评估的难题,提供了不同语言之间相似度评分的标准数据,有助于研究人员理解和比较跨语言语义表示的性能,从而推动多语言自然语言处理技术的发展。
实际应用
在实际应用中,STSb Multi MT数据集可用于提升多语言信息检索系统的准确性,优化机器翻译的语义对齐,以及增强跨语言问答系统的响应相关性,为多语言交流和处理提供了强有力的数据支撑。
数据集最近研究
最新研究方向
在自然语言处理领域,句子语义相似度评估是一项关键任务,对于改善机器翻译、信息检索和问答系统等应用至关重要。mteb/stsb_multi_mt数据集作为STSbenchmark的多语言翻译版本,提供了丰富的多语言句子对及其相似度评分,支持了多语言环境中语义相似度模型的训练与评估。近期研究集中于利用该数据集进行跨语言句子嵌入模型的开发,以及探讨不同语言间语义表示的通用性和差异性。这些研究不仅推动了多语言自然语言处理技术的发展,也为全球化背景下的语言资源整合提供了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作