ms-marco-tr-hard-negatives

Hugging Face2025-11-27 更新2025-11-28 收录

下载链接：

https://huggingface.co/datasets/lumees/ms-marco-tr-hard-negatives

下载链接

链接失效反馈

官方服务：

资源简介：

MS MARCO TR - 难负样本数据集是一个土耳其语数据集，专为语义搜索、密集检索和嵌入模型训练而设计。它包含了大约500k到1M的训练三元组，由查询、正样本和10个难负样本组成，这些难负样本是语义上与查询相似但不是正确答案的段落。数据集通过使用emrecan/bert-base-turkish-cased-mean-nli-stsb-tr模型挖掘得到，适用于训练句子嵌入模型以提高信息检索任务的性能。

创建时间：

2025-11-27

原始信息汇总

MS MARCO TR - Zor Negatifler (Hard Negatives) Veri Seti

数据集概述

来源仓库：从 parsak/msmarco-tr 派生而来
语言：土耳其语 (tr)
任务：语义搜索、密集检索、嵌入训练
规模：约500k - 1M 训练三元组（取决于处理的查询数量）
作者：Lumees AI, Hasan Kurşun, Kerem Berkay Yanık
年份：2025
网站：lumees.io

数据集摘要

该数据集包含专门为土耳其语MS MARCO数据集挖掘的困难负样本。专为训练或微调土耳其语信息检索任务中的句子嵌入模型而设计。

与标准随机负样本不同，这些"困难"负样本是与查询具有高度语义相似性但不是正确答案的段落。在此数据上训练可以迫使模型学习细微的语义区别，从而显著提高检索性能。

创建过程

源数据：训练查询和段落来自 parsak/msmarco-tr（机器翻译的土耳其语MS MARCO）数据集
挖掘模型：使用 emrecan/bert-base-turkish-cased-mean-nli-stsb-tr 模型
方法：
- 编码：使用挖掘模型将所有查询和段落转换为密集向量
- 检索：对于每个查询，使用Faiss（内积）检索最相似的100个段落
- 过滤：从结果中移除真正的正样本（正确答案）
- 安全阈值：为防止"假负样本"，相似度得分高于0.98的段落被丢弃
- 选择：从剩余候选中选择得分最高的前10个段落作为困难负样本

数据结构

数据示例

.jsonl文件中的每一行代表一个训练样本的有效JSON对象：

json { "query": "Manhattan projesinin başarısının hemen etkisi neydi?", "pos": "Manhattan Projesi ve atom bombası, İkinci Dünya Savaşının sona ermesine yardımcı oldu...", "negatives": [ "Manhattan Projesi, II. Dünya Savaşı sırasında ilk atom bombasını geliştirmek için...", "Proje, nükleer silah üretimi üzerine odaklanmıştı...", "..." ], "scores": [ 0.874, 0.852, "..." ] }

数据字段

query (string)：搜索查询
pos (string)：真正的正样本段落（正确答案）
negatives (字符串列表)：与查询语义相近但错误的10个段落列表，按相似度排序（从高到低）
scores (浮点数列表)：对应negatives列表中段落的余弦相似度得分，可用于训练期间的边际过滤或加权损失函数

使用指南

数据集加载（Python）

可以使用Hugging Face datasets库或标准JSON行读取方法加载此数据集：

python from datasets import load_dataset

如果已上传到Hugging Face

ds = load_dataset("lumees/msmarco-tr-hard-negatives", split="train")

如果从本地文件加载

ds = load_dataset("json", data_files="msmarco_tr_hard_negatives_final.jsonl", split="train")

print(ds[0])

使用Sentence Transformers训练

该数据集针对MultipleNegativesRankingLoss或InfoNCE等损失函数进行了优化：

python from sentence_transformers import InputExample

train_examples = [] for row in ds: # 结构：[查询, 正样本, 负样本1, 负样本2, ...] texts = [row[query], row[pos]] + row[negatives] train_examples.append(InputExample(texts=texts))

限制与偏差

翻译错误：原始parsak/msmarco-tr数据集是通过机器翻译从英语创建的，因此某些土耳其语表达可能不自然或包含翻译错误
假负样本：尽管有0.98的相似度过滤器，但某些被选为"负样本"的段落实际上可能是原始数据集中未标记的正确答案
模型偏差：负样本是使用emrecan/bert-base-turkish模型提取的，数据集自然反映了这个基础模型的偏差和语义理解

引用

如果使用此数据集，请引用Lumees AI、原始MS MARCO作者和土耳其语翻译来源：

bibtex @misc{lumees_msmarco_hn_2025, author = {Lumees AI and Kurşun, Hasan and Yanık, Kerem Berkay}, title = {MS MARCO TR - Hard Negatives Dataset}, year = {2025}, howpublished = {url{https://lumees.io}}, }

@article{bajaj2016ms, title={MS MARCO: A Human Generated Machine Reading Comprehension Dataset}, author={Bajaj, Payal and Campos, Daniel and Craswell, Nick and Deng, Li and Gao, Jianfeng and Liu, Xiaodong and Majumder, Rangan and McNamara, Andrew and Mitra, Bhaskar and Nguyen, Tri and others}, journal={arXiv preprint arXiv:1611.09268}, year={2016} }

@misc{parsak_msmarco_tr, author = {Parsak}, title = {MS MARCO Turkish Translation}, year = {2023}, publisher = {Hugging Face}, journal = {Hugging Face Hub}, howpublished = {url{https://huggingface.co/datasets/parsak/msmarco-tr}} }

搜集汇总

数据集介绍

构建方式

在信息检索领域，高质量训练数据的构建对模型性能至关重要。该数据集基于机器翻译的土耳其语MS MARCO语料库，通过预训练语言模型进行语义编码与相似度计算。具体采用Faiss索引系统对查询和文档进行密集向量检索，筛选出与查询语义高度相关但非正确答案的段落作为困难负样本，并设置相似度阈值排除潜在误判样本，最终形成包含查询-正例-负例的三元组结构。

特点

本数据集的核心价值在于其精心设计的困难负样本机制。这些负样本与查询语句具有高度语义相似性，却并非标准答案，能有效提升模型对细微语义差异的判别能力。数据集提供每对样本的相似度分数，支持边际过滤或加权损失函数等高级训练策略。其土耳其语特性填补了非英语检索数据资源的空白，为跨语言信息检索研究提供重要支撑。

使用方法

该数据集专为句子嵌入模型训练优化，可与Sentence Transformers框架无缝集成。使用者可通过Hugging Face数据集库直接加载，或解析本地JSONL文件构建训练集。在训练过程中，建议采用多负样本排序损失函数，将查询、正例及多个困难负例组合为输入样本。相似度分数可用于实现动态负样本采样或加权损失计算，以进一步提升模型在复杂语义场景下的检索精度。

背景与挑战

背景概述

在信息检索领域的发展历程中，高质量训练数据的构建对提升语义搜索模型性能具有关键意义。ms-marco-tr-hard-negatives数据集由Lumees AI团队于2025年发布，基于机器翻译的土耳其语MS MARCO语料库进行深度加工。该数据集聚焦于解决稠密检索任务中的语义匹配难题，通过精心挖掘的困难负样本，显著提升了土耳其语嵌入模型在复杂语义场景下的判别能力，为低资源语言的检索系统优化提供了重要技术支撑。

当前挑战

该数据集面临的核心挑战体现在语义检索任务与构建过程两个维度。在任务层面，需要精准区分具有高度语义相关性但非正确答案的文档，这对模型的细粒度语义理解能力提出极高要求。构建过程中，机器翻译引入的语言失真现象可能影响语义表征质量，同时基于预训练模型的挖掘策略难以完全避免错误负样本，且原始翻译语料存在的标注噪声会进一步放大数据偏差风险。

常用场景

经典使用场景

在自然语言处理领域，该数据集专为训练土耳其语密集检索模型而设计。通过提供语义相似但非正确答案的困难负例，模型能够在对比学习框架下区分细微的语义差异，显著提升检索精度。典型应用场景包括使用Sentence-BERT架构结合多重负例排序损失函数，构建端到端的语义检索系统。

衍生相关工作

基于该数据集的创新研究催生了多项重要工作，包括结合动态负例挖掘的渐进式训练策略、融合多语言表示的跨语言检索模型，以及针对土耳其语形态特征的专用分词算法。这些成果不仅推动了土耳其语NLP领域的发展，也为其他黏着语系的检索系统优化提供了可迁移的技术路径。

数据集最近研究