STSb-TR

Hugging Face2025-12-14 更新2025-12-15 收录

下载链接：

https://huggingface.co/datasets/boun-tabilab/STSb-TR

下载链接

链接失效反馈

官方服务：

资源简介：

STSb-TR 1.0是通过机器翻译将英语STS基准数据集翻译成土耳其语而发布的。数据集中包含三个字段：sentence1（字符串类型的第一句话）、sentence2（字符串类型的第二句话）和score（0到5之间的相关度分数）。数据集结构保持了原始数据结构。

创建时间：

2025-12-10

原始信息汇总

STSb-TR 数据集概述

数据集描述

STSb-TR 1.0 是通过将英文 STS 基准数据集机器翻译成土耳其语而构建的。

数据集结构

数据集保留了原始数据结构，包含三个标准数据划分。

数据划分

训练集：包含 5,749 个样本，大小为 851,783 字节。
验证集：包含 1,500 个样本，大小为 237,033 字节。
测试集：包含 1,379 个样本，大小为 187,791 字节。

总览

下载大小：750,054 字节。
数据集总大小：1,276,607 字节。

数据字段

sentence1 (字符串类型)：句子对中的第一个句子。
sentence2 (字符串类型)：句子对中的第二个句子。
score (浮点数类型)：表示句子相关性的得分，范围从 0 到 5。

数据来源

原始英文数据集：https://ixa2.si.ehu.eus/stswiki/stswiki.html#STS_benchmark
STSb-TR 项目地址：https://github.com/verimsu/STSb-TR
数据文件地址：https://github.com/verimsu/STSb-TR/tree/main/data_splits

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，语义文本相似性评估对于跨语言模型的发展至关重要。STSb-TR数据集的构建源于对英语STS基准数据集的机器翻译转化，旨在为土耳其语提供高质量的语义相似性标注资源。该过程通过自动化翻译工具将原始英文句子对转换为土耳其语，同时保留了原有的评分结构，确保了数据在跨语言语境下的连贯性与一致性。构建过程中严格遵循原始数据的分割方式，划分为训练集、验证集和测试集，为后续模型训练与评估奠定了坚实基础。

特点

STSb-TR数据集以其跨语言特性脱颖而出，专注于土耳其语的语义相似性任务。数据集包含句子对及其对应的相似性评分，评分范围从0到5，精确反映了句子间的语义关联程度。数据规模适中，涵盖5749个训练样本、1500个验证样本和1379个测试样本，确保了模型训练的有效性与评估的可靠性。其结构简洁明了，仅包含三个核心字段，便于研究人员快速集成到现有自然语言处理流程中，同时为土耳其语语义理解研究提供了标准化基准。

使用方法

该数据集适用于语义文本相似性模型的训练与评估，尤其在跨语言迁移学习场景中具有重要价值。研究人员可通过加载标准数据分割，直接将其应用于监督学习框架，利用句子对和评分进行模型优化。在评估阶段，测试集可用于衡量模型在土耳其语上的性能表现，验证其语义理解能力。此外，数据集还可作为基准工具，用于比较不同模型或方法在土耳其语语义相似性任务上的效果，推动相关领域的技术进步与创新。

背景与挑战

背景概述

STSb-TR数据集作为语义文本相似性评估领域的重要资源，其构建源于对跨语言自然语言处理研究的迫切需求。该数据集由研究人员通过机器翻译技术，将英文STS基准数据集转化为土耳其语版本，旨在为土耳其语文本相似性任务提供标准化评估工具。其核心研究问题聚焦于衡量句子对之间的语义关联程度，评分范围从0到5，精确量化了文本间的相似性水平。这一数据集的创建不仅丰富了低资源语言的研究素材，也为跨语言语义理解模型的性能验证提供了关键支持，推动了多语言自然语言处理技术的发展。

当前挑战

STSb-TR数据集所针对的语义文本相似性任务，其核心挑战在于如何准确捕捉并量化自然语言中复杂的语义关系，尤其是在土耳其语这类形态丰富的语言中，词法变化和句法结构对相似性判断的影响更为显著。构建过程中的主要困难体现在机器翻译可能引入的语义偏差或文化特定表达的丢失，这要求翻译过程需兼顾语言准确性与语义保真度。此外，确保翻译后的句子对保持原始评分的一致性，并适应土耳其语的语言特性，也是数据集构建中需要克服的技术障碍。

常用场景

经典使用场景

在自然语言处理领域，语义文本相似性评估是衡量模型理解语言深度的关键任务。STSb-TR数据集作为土耳其语版本的STS基准，为研究者提供了一个标准化的评测平台，用于训练和评估句子嵌入模型、语义匹配系统以及跨语言迁移学习框架。通过包含成对句子及其人工标注的相似度分数，该数据集使得模型能够学习捕捉土耳其语句子间的语义关联，进而优化在信息检索、问答系统等下游任务中的表现。

解决学术问题

STSb-TR数据集主要解决了土耳其语自然语言处理中语义相似性计算资源匮乏的学术问题。传统上，由于土耳其语属于黏着语系，其复杂的形态结构使得语义建模面临挑战，而该数据集的推出填补了这一空白。它促进了土耳其语语义表示学习的发展，帮助研究者探索语言特异性对模型性能的影响，并为跨语言语义对齐研究提供了重要数据支撑，推动了多语言NLP技术的均衡进步。

衍生相关工作

围绕STSb-TR数据集，学术界衍生了一系列经典研究工作。这些工作主要集中在开发基于Transformer的土耳其语预训练模型，如BERTurk的微调与评估，以及探索跨语言迁移学习策略，将英语STS知识迁移至土耳其语场景。同时，研究者利用该数据集进行了多语言句子嵌入的对比分析，提出了针对黏着语言的语义相似性计算新方法，这些成果显著丰富了低资源语言NLP的文献体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集