five

ms-marco-turkish-triplets

收藏
Hugging Face2026-01-23 更新2026-01-24 收录
下载链接:
https://huggingface.co/datasets/newmindai/ms-marco-turkish-triplets
下载链接
链接失效反馈
官方服务:
资源简介:
MS MARCO土耳其三元组数据集是原始MS MARCO数据集的土耳其语版本。该数据集包含专门为土耳其语对比学习任务准备的查询-段落三元组。该数据集是从[parsak/msmarco-tr](https://huggingface.co/datasets/parsak/msmarco-tr)格式化为基于三元组的对比学习。数据集结构包括查询文本、正面段落文本和负面段落文本。数据集适用于对比学习和句子嵌入任务。
创建时间:
2026-01-16
原始信息汇总

MS MARCO Turkish Triplets 数据集概述

数据集基本信息

  • 数据集名称:MS MARCO Turkish Triplets Dataset
  • 许可证:Apache 2.0 License
  • 主要任务类别:句子相似度(sentence-similarity)
  • 语言:土耳其语(tr)
  • 标签:dataset, sentence-similarity, tr, turkish, ms-marco, contrastive-learning
  • 规模分类:1K<n<10K

数据集描述

土耳其语版本的原始MS MARCO数据集。该数据集包含专门为土耳其语对比学习任务准备的查询-段落三元组。此数据集从parsak/msmarco-tr格式化而来,用于基于三元组的对比学习。

数据集来源

  • 来源:此数据集从parsak/msmarco-tr格式化而来,该数据集基于原始MS MARCO数据集。

数据结构

数据字段

  • query_text:土耳其语查询文本
  • pos_text:土耳其语正例段落文本
  • neg_text:土耳其语负例段落文本

数据划分

该数据集包含以下划分:

  • train:训练数据

使用方式

加载数据集

python from datasets import load_dataset dataset = load_dataset("newmindai/ms-marco-turkish-triplets") train_data = dataset[train]

推荐损失函数

该数据集针对以下损失函数进行了优化:

  • MultipleNegativesRankingLoss
  • CachedMultipleNegativesRankingLoss
  • TripletLoss

MultipleNegativesRankingLoss(MNR)

  • 目的:使相似示例更接近,同时将不同示例推远。当只有正例对(锚点,正例)并希望从批次内推导负例时使用。
  • 数学公式L = - (1/N) * Σ log(exp(s(ai, pi) * scale) / Σ exp(s(ai, pj) * scale))

CachedMultipleNegativesRankingLoss

  • 目的:与MNR数学原理相同,但内存效率更高。
  • 关键区别:当大批次无法直接放入GPU内存时使用。预缓存嵌入然后计算损失,允许“虚拟”更大的批次内负例。

TripletLoss

  • 目的:使锚点-正例对更接近,同时将锚点-负例对推远一个特定的边界。
  • 数学公式L = max(0, d(a, p) - d(a, n) + m)

使用示例

使用Sentence Transformers与MultipleNegativesRankingLoss

python from sentence_transformers import SentenceTransformer, losses, InputExample model = SentenceTransformer(sentence-transformers/all-MiniLM-L6-v2) train_examples = [] for example in dataset[train]: train_examples.append(InputExample(texts=[example[query_text], example[pos_text]], label=1)) train_examples.append(InputExample(texts=[example[query_text], example[neg_text]], label=0)) train_loss = losses.MultipleNegativesRankingLoss(model) model.fit(train_objectives=[(train_examples, train_loss)], epochs=1, warmup_steps=100)

使用TripletLoss

python from sentence_transformers import SentenceTransformer, losses, InputExample train_examples = [] for example in dataset[train]: train_examples.append(InputExample(texts=[example[query_text], example[pos_text], example[neg_text]])) train_loss = losses.TripletLoss(model) model.fit(train_objectives=[(train_examples, train_loss)], epochs=1, warmup_steps=100)

数据集统计

  • 语言:土耳其语(tr)
  • 任务:句子相似度
  • 来源parsak/msmarco-tr(基于原始MS MARCO数据集)
  • 格式:查询-段落三元组
  • 使用场景:对比学习、句子嵌入

性能提示

  1. 批次大小:使用16-32的批次大小以获得最佳性能
  2. 学习率:从2e-5开始,根据验证性能进行调整
  3. 训练轮数:1-3轮通常足以进行微调
  4. 预热步骤:使用10%的预热步骤以确保训练稳定

引用

bibtex @article{msmarco2016, title={MS MARCO: A Human Generated MAchine Reading COmprehension Dataset}, author={Bajaj, Payal and Campos, Daniel and Craswell, Nick and Deng, Li and Gao, Jianfeng and Liu, Xiaodong and Majumder, Rangan and McNamara, Andrew and Mitra, Bhaskar and Nguyen, Tri and Rosenberg, Mir and Song, Xia and Stoica, Alina and Tiwary, Saurabh and Wang, Tong}, journal={arXiv preprint arXiv:1611.09268}, year={2018}, url={https://arxiv.org/abs/1611.09268}, doi={10.48550/arXiv.1611.09268} }

许可证

该数据集根据Apache 2.0许可证发布。

联系方式

如有问题请联系:info@newmind.ai

搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索与自然语言处理领域,跨语言数据资源的构建对于提升模型的多语言理解能力至关重要。MS MARCO Turkish Triplets数据集基于原始MS MARCO数据集,通过从土耳其语版本的parsak/msmarco-tr数据集中提取并重构而成。该构建过程专注于将原始的查询-文档对转化为适合对比学习的三元组格式,即每个样本包含一个查询文本、一个相关正例段落以及一个不相关负例段落,从而为土耳其语文本的语义相似性任务提供了结构化基础。
特点
该数据集的核心特点在于其专门针对土耳其语设计,填补了土耳其语对比学习数据资源的空白。其三元组结构直接支持多种对比损失函数,如多重负例排序损失和三元组损失,便于模型学习查询与相关段落之间的语义关联。数据规模适中,介于一千到一万样本之间,适用于高效的模型微调与实验验证,同时保持了与原始MS MARCO数据集一致的高质量标注标准。
使用方法
在应用层面,该数据集主要用于训练句子嵌入模型以提升土耳其语语义相似性任务的性能。用户可通过Hugging Face的datasets库直接加载数据,并利用Sentence Transformers框架结合推荐的损失函数进行模型训练。典型工作流程包括将三元组数据转换为InputExample格式,配置损失函数如MultipleNegativesRankingLoss或TripletLoss,并通过调整批次大小、学习率等超参数来优化模型表现,最终实现查询与段落之间的精准语义匹配。
背景与挑战
背景概述
在自然语言处理领域,跨语言信息检索与语义相似性计算一直是核心研究方向。MS MARCO数据集自2016年由微软研究院团队推出以来,已成为机器阅读理解与检索任务的重要基准。其土耳其语变体MS MARCO Turkish Triplets数据集,由Newmind AI机构基于原始MS MARCO数据集构建,专注于土耳其语的对比学习任务。该数据集通过查询-段落三元组形式,旨在解决土耳其语语义表示学习中的资源稀缺问题,为低资源语言的信息检索模型开发提供了关键支持,推动了多语言语义理解技术的发展。
当前挑战
该数据集旨在应对土耳其语语义相似性计算与信息检索的挑战,其核心问题在于低资源语言中高质量标注数据的匮乏,导致模型难以捕捉复杂的语言结构与语义关联。在构建过程中,挑战主要源于跨语言适配的复杂性:原始英文数据需经精准翻译与文化语境适配,确保土耳其语查询与段落间的语义一致性;同时,三元组构造需平衡正负样本的难度,避免噪声引入,这对标注质量与语言学专业知识提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,针对土耳其语的信息检索与语义相似度任务,MS MARCO Turkish Triplets数据集为对比学习提供了标准化的训练资源。该数据集通过精心构建的查询-正例-负例三元组,使得模型能够在土耳其语语境下学习区分相关与不相关文本片段。研究人员通常利用该数据集训练句子嵌入模型,以优化查询与文档之间的语义匹配性能,为后续的检索与排序任务奠定基础。
解决学术问题
该数据集有效解决了土耳其语自然语言处理中缺乏高质量对比学习数据的问题,为跨语言信息检索研究提供了重要支撑。通过提供结构化的三元组样本,它助力于探索低资源语言环境下语义表示学习的泛化能力,推动了多语言模型在非英语语种上的适配与优化。其存在不仅填补了土耳其语语义相似度任务的空白,还为对比学习理论在特定语言场景下的验证提供了实证基础。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典工作,包括基于MultipleNegativesRankingLoss和TripletLoss的土耳其语句子嵌入模型优化研究。这些工作进一步探索了对比学习在低资源语言上的迁移效果,并推动了多语言BERT等预训练模型在土耳其语任务上的微调策略。相关成果为后续跨语言语义相似度数据集的构建提供了方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作