five

ms-marco-tr-hard-negatives

收藏
Hugging Face2025-11-27 更新2025-11-28 收录
下载链接:
https://huggingface.co/datasets/lumees/ms-marco-tr-hard-negatives
下载链接
链接失效反馈
官方服务:
资源简介:
MS MARCO TR - 难负样本数据集是一个土耳其语数据集,专为语义搜索、密集检索和嵌入模型训练而设计。它包含了大约500k到1M的训练三元组,由查询、正样本和10个难负样本组成,这些难负样本是语义上与查询相似但不是正确答案的段落。数据集通过使用emrecan/bert-base-turkish-cased-mean-nli-stsb-tr模型挖掘得到,适用于训练句子嵌入模型以提高信息检索任务的性能。
创建时间:
2025-11-27
原始信息汇总

MS MARCO TR - Zor Negatifler (Hard Negatives) Veri Seti

数据集概述

  • 来源仓库:从 parsak/msmarco-tr 派生而来
  • 语言:土耳其语 (tr)
  • 任务:语义搜索、密集检索、嵌入训练
  • 规模:约500k - 1M 训练三元组(取决于处理的查询数量)
  • 作者:Lumees AI, Hasan Kurşun, Kerem Berkay Yanık
  • 年份:2025
  • 网站lumees.io

数据集摘要

该数据集包含专门为土耳其语MS MARCO数据集挖掘的困难负样本。专为训练或微调土耳其语信息检索任务中的句子嵌入模型而设计。

与标准随机负样本不同,这些"困难"负样本是与查询具有高度语义相似性不是正确答案的段落。在此数据上训练可以迫使模型学习细微的语义区别,从而显著提高检索性能。

创建过程

  1. 源数据:训练查询和段落来自 parsak/msmarco-tr(机器翻译的土耳其语MS MARCO)数据集
  2. 挖掘模型:使用 emrecan/bert-base-turkish-cased-mean-nli-stsb-tr 模型
  3. 方法
    • 编码:使用挖掘模型将所有查询和段落转换为密集向量
    • 检索:对于每个查询,使用Faiss(内积)检索最相似的100个段落
    • 过滤:从结果中移除真正的正样本(正确答案)
    • 安全阈值:为防止"假负样本",相似度得分高于0.98的段落被丢弃
    • 选择:从剩余候选中选择得分最高的前10个段落作为困难负样本

数据结构

数据示例

.jsonl文件中的每一行代表一个训练样本的有效JSON对象:

json { "query": "Manhattan projesinin başarısının hemen etkisi neydi?", "pos": "Manhattan Projesi ve atom bombası, İkinci Dünya Savaşının sona ermesine yardımcı oldu...", "negatives": [ "Manhattan Projesi, II. Dünya Savaşı sırasında ilk atom bombasını geliştirmek için...", "Proje, nükleer silah üretimi üzerine odaklanmıştı...", "..." ], "scores": [ 0.874, 0.852, "..." ] }

数据字段

  • query (string):搜索查询
  • pos (string):真正的正样本段落(正确答案)
  • negatives (字符串列表):与查询语义相近但错误的10个段落列表,按相似度排序(从高到低)
  • scores (浮点数列表):对应negatives列表中段落的余弦相似度得分,可用于训练期间的边际过滤或加权损失函数

使用指南

数据集加载(Python)

可以使用Hugging Face datasets库或标准JSON行读取方法加载此数据集:

python from datasets import load_dataset

如果已上传到Hugging Face

ds = load_dataset("lumees/msmarco-tr-hard-negatives", split="train")

如果从本地文件加载

ds = load_dataset("json", data_files="msmarco_tr_hard_negatives_final.jsonl", split="train")

print(ds[0])

使用Sentence Transformers训练

该数据集针对MultipleNegativesRankingLossInfoNCE等损失函数进行了优化:

python from sentence_transformers import InputExample

train_examples = [] for row in ds: # 结构:[查询, 正样本, 负样本1, 负样本2, ...] texts = [row[query], row[pos]] + row[negatives] train_examples.append(InputExample(texts=texts))

限制与偏差

  1. 翻译错误:原始parsak/msmarco-tr数据集是通过机器翻译从英语创建的,因此某些土耳其语表达可能不自然或包含翻译错误
  2. 假负样本:尽管有0.98的相似度过滤器,但某些被选为"负样本"的段落实际上可能是原始数据集中未标记的正确答案
  3. 模型偏差:负样本是使用emrecan/bert-base-turkish模型提取的,数据集自然反映了这个基础模型的偏差和语义理解

引用

如果使用此数据集,请引用Lumees AI、原始MS MARCO作者和土耳其语翻译来源:

bibtex @misc{lumees_msmarco_hn_2025, author = {Lumees AI and Kurşun, Hasan and Yanık, Kerem Berkay}, title = {MS MARCO TR - Hard Negatives Dataset}, year = {2025}, howpublished = {url{https://lumees.io}}, }

@article{bajaj2016ms, title={MS MARCO: A Human Generated Machine Reading Comprehension Dataset}, author={Bajaj, Payal and Campos, Daniel and Craswell, Nick and Deng, Li and Gao, Jianfeng and Liu, Xiaodong and Majumder, Rangan and McNamara, Andrew and Mitra, Bhaskar and Nguyen, Tri and others}, journal={arXiv preprint arXiv:1611.09268}, year={2016} }

@misc{parsak_msmarco_tr, author = {Parsak}, title = {MS MARCO Turkish Translation}, year = {2023}, publisher = {Hugging Face}, journal = {Hugging Face Hub}, howpublished = {url{https://huggingface.co/datasets/parsak/msmarco-tr}} }

搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,高质量训练数据的构建对模型性能至关重要。该数据集基于机器翻译的土耳其语MS MARCO语料库,通过预训练语言模型进行语义编码与相似度计算。具体采用Faiss索引系统对查询和文档进行密集向量检索,筛选出与查询语义高度相关但非正确答案的段落作为困难负样本,并设置相似度阈值排除潜在误判样本,最终形成包含查询-正例-负例的三元组结构。
特点
本数据集的核心价值在于其精心设计的困难负样本机制。这些负样本与查询语句具有高度语义相似性,却并非标准答案,能有效提升模型对细微语义差异的判别能力。数据集提供每对样本的相似度分数,支持边际过滤或加权损失函数等高级训练策略。其土耳其语特性填补了非英语检索数据资源的空白,为跨语言信息检索研究提供重要支撑。
使用方法
该数据集专为句子嵌入模型训练优化,可与Sentence Transformers框架无缝集成。使用者可通过Hugging Face数据集库直接加载,或解析本地JSONL文件构建训练集。在训练过程中,建议采用多负样本排序损失函数,将查询、正例及多个困难负例组合为输入样本。相似度分数可用于实现动态负样本采样或加权损失计算,以进一步提升模型在复杂语义场景下的检索精度。
背景与挑战
背景概述
在信息检索领域的发展历程中,高质量训练数据的构建对提升语义搜索模型性能具有关键意义。ms-marco-tr-hard-negatives数据集由Lumees AI团队于2025年发布,基于机器翻译的土耳其语MS MARCO语料库进行深度加工。该数据集聚焦于解决稠密检索任务中的语义匹配难题,通过精心挖掘的困难负样本,显著提升了土耳其语嵌入模型在复杂语义场景下的判别能力,为低资源语言的检索系统优化提供了重要技术支撑。
当前挑战
该数据集面临的核心挑战体现在语义检索任务与构建过程两个维度。在任务层面,需要精准区分具有高度语义相关性但非正确答案的文档,这对模型的细粒度语义理解能力提出极高要求。构建过程中,机器翻译引入的语言失真现象可能影响语义表征质量,同时基于预训练模型的挖掘策略难以完全避免错误负样本,且原始翻译语料存在的标注噪声会进一步放大数据偏差风险。
常用场景
经典使用场景
在自然语言处理领域,该数据集专为训练土耳其语密集检索模型而设计。通过提供语义相似但非正确答案的困难负例,模型能够在对比学习框架下区分细微的语义差异,显著提升检索精度。典型应用场景包括使用Sentence-BERT架构结合多重负例排序损失函数,构建端到端的语义检索系统。
衍生相关工作
基于该数据集的创新研究催生了多项重要工作,包括结合动态负例挖掘的渐进式训练策略、融合多语言表示的跨语言检索模型,以及针对土耳其语形态特征的专用分词算法。这些成果不仅推动了土耳其语NLP领域的发展,也为其他黏着语系的检索系统优化提供了可迁移的技术路径。
数据集最近研究
最新研究方向
在跨语言信息检索领域,ms-marco-tr-hard-negatives数据集正推动密集检索技术的前沿探索。该数据集通过精心构建的语义相似负样本,显著提升了土耳其语检索模型的判别能力。当前研究聚焦于多语言嵌入空间的语义对齐,结合对比学习与动态负采样策略,有效缓解了机器翻译引入的语义偏差。随着低资源语言处理需求的增长,该数据集为构建跨语言统一检索框架提供了关键训练资源,推动了多语言信息检索系统的实用化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作