five

sentence-transformers/nli-for-simcse

收藏
Hugging Face2024-06-18 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/nli-for-simcse
下载链接
链接失效反馈
官方服务:
资源简介:
NLI for SimCSE数据集是一个用于训练或微调嵌入模型的数据集,主要用于语义文本相似性任务。数据集包含三个子集:triplet、triplet-7和triplet-all。每个子集都包含anchor、positive和negative列,数据类型均为字符串。triplet子集每个样本包含一个negative,triplet-7子集每个样本包含七个negative,triplet-all子集则包含所有negative,每个negative生成一个单独的样本。数据集未进行去重处理。

NLI for SimCSE数据集是一个用于训练或微调嵌入模型的数据集,主要用于语义文本相似性任务。数据集包含三个子集:triplet、triplet-7和triplet-all。每个子集都包含anchor、positive和negative列,数据类型均为字符串。triplet子集每个样本包含一个negative,triplet-7子集每个样本包含七个negative,triplet-all子集则包含所有negative,每个negative生成一个单独的样本。数据集未进行去重处理。
提供机构:
sentence-transformers
原始信息汇总

数据集卡片 NLI for SimCSE

数据集概述

  • 语言: 英语
  • 多语言性: 单语种
  • 数据集大小: 1M < n < 10M
  • 任务类别: 特征提取, 句子相似度
  • 标签: sentence-transformers

数据集配置

triplet 子集

  • 特征:
    • anchor: 字符串
    • positive: 字符串
    • negative: 字符串
  • 分割:
    • train:
      • 字节数: 51033641
      • 样本数: 274951
  • 下载大小: 33517191
  • 数据集大小: 51033641

triplet-7 子集

  • 特征:
    • anchor: 字符串
    • positive: 字符串
    • negative_1negative_7: 字符串
  • 分割:
    • train:
      • 字节数: 129065964
      • 样本数: 273540
  • 下载大小: 87886620
  • 数据集大小: 129065964

triplet-all 子集

  • 特征:
    • anchor: 字符串
    • positive: 字符串
    • negative: 字符串
  • 分割:
    • train:
      • 字节数: 357145333
      • 样本数: 1925996
  • 下载大小: 94616052
  • 数据集大小: 357145333

数据集子集

triplet 子集

  • : "anchor", "positive", "negative"

  • 列类型: str, str, str

  • 示例: python { anchor: One of our number will carry out your instructions minutely., positive: A member of my team will execute your orders with immense precision., negative: We have no one free at the moment so you have to take action yourself. }

  • 收集策略: 从 en_NLI_data 目录中读取 jsonl 文件,仅取第一个 negative。

  • 去重: 否

triplet-7 子集

  • : "anchor", "positive", "negative_1", "negative_2", "negative_3", "negative_4", "negative_5", "negative_6", "negative_7"

  • 列类型: str, str, str, str, str, str, str

  • 示例: python { anchor: One of our number will carry out your instructions minutely., positive: A member of my team will execute your orders with immense precision., negative_1: We have no one free at the moment so you have to take action yourself., negative_2: A poodle is running through the grass., negative_3: Investment and planning are growing industries in Jamaica., negative_4: A bearded man is rocking out on an acoustic guitar, negative_5: The people are sunbathing on the beach., negative_6: A construction worker installs a door., negative_7: A crowd has gathered because of a dangerous situation. }

  • 收集策略: 从 en_NLI_data 目录中读取 jsonl 文件,取所有包含 7 个 negatives 的样本。

  • 去重: 否

triplet-all 子集

  • : "anchor", "positive", "negative"

  • 列类型: str, str, str

  • 示例: python { anchor: One of our number will carry out your instructions minutely., positive: A member of my team will execute your orders with immense precision., negative: We have no one free at the moment so you have to take action yourself. }

  • 收集策略: 从 en_NLI_data 目录中读取 jsonl 文件,取每个 negative,并为每个 negative 生成一个单独的样本。

  • 去重: 否

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,语义相似性任务对高质量数据的需求日益增长。该数据集源自Shitao/bge-m3-data中的en_NLI_data目录,通过解析jsonl文件构建而成。其核心采用三元组结构,包含锚点句、正例句和负例句,其中锚点句与正例句语义相近,与负例句语义相异。数据集提供了三种配置:triplet仅取首个负例,triplet-7选取包含七个负例的样本,triplet-all则为每个负例生成独立样本,共同构成了规模达百万级别的英文语料集合。
特点
该数据集专为训练语义文本相似性模型设计,其显著特点在于丰富的负例配置。triplet配置提供基础的三元组,triplet-7为每个锚点配备多达七个语义各异的负例,能有效增强模型区分细微语义差异的能力。triplet-all则通过展开所有负例生成大量训练样本,极大扩充了数据规模。所有样本均以字符串形式存储,结构清晰,便于直接用于对比学习框架,如SimCSE等先进嵌入模型的微调。
使用方法
研究人员可利用该数据集训练或微调句子嵌入模型,以提升语义相似性计算性能。使用时可选择不同配置:triplet适用于基础对比学习;triplet-7能提供更密集的负例采样,有助于模型学习更精细的语义边界;triplet-all则适合需要大规模训练数据的场景。通过加载指定配置,模型可读取锚点、正例和负例句子,并采用对比损失函数进行优化,最终获得高质量的句子向量表示,应用于检索、聚类及自然语言推理等多种下游任务。
背景与挑战
背景概述
在自然语言处理领域,语义文本相似性评估是核心任务之一,其目标在于量化文本片段之间的语义关联度。sentence-transformers/nli-for-simcse数据集作为BGE-M3模型训练的关键资源,由北京智源人工智能研究院(BAAI)的研究团队于2023年构建,旨在通过自然语言推理数据优化句子嵌入表示。该数据集基于大规模英文NLI数据重构,以三元组形式组织,包含锚点句、正例句和负例句,直接服务于对比学习框架下的语义相似性建模,推动了嵌入模型在信息检索、问答系统等下游任务中的性能提升。
当前挑战
该数据集致力于解决语义文本相似性任务中的挑战,即如何精准捕捉句子间细微的语义差异,并生成具有判别力的向量表示。在构建过程中,面临多重困难:首先,从原始NLI数据中筛选高质量的三元组需要克服噪声干扰,确保正负例在语义上的清晰界限;其次,负例的多样性设计至关重要,需避免简单负例导致的模型过拟合,同时维持数据规模的平衡。此外,数据重构时未进行去重处理,可能引入冗余信息,增加了模型训练的复杂度。
常用场景
经典使用场景
在自然语言处理领域,语义相似度计算是文本理解的核心任务之一。NLI for SimCSE数据集通过提供精心构建的锚点-正例-负例三元组,为训练对比学习模型提供了高质量语料。该数据集最经典的使用场景是微调句子嵌入模型,使模型能够准确区分语义相近与相异的句子对,从而提升语义相似性评估的精度。其结构化设计特别适用于SimCSE等自监督对比学习框架,通过拉近语义相似句子的嵌入距离、推远无关句子的距离,有效优化向量表示空间。
解决学术问题
该数据集主要针对句子嵌入学习中监督信号不足的学术难题。传统无监督方法难以捕获细粒度语义关系,而人工标注数据成本高昂。NLI for SimCSE利用自然语言推理任务的标注数据,将蕴含、中立、矛盾三类逻辑关系转化为对比学习所需的相似性监督信号,解决了弱监督场景下语义表示优化的瓶颈。其意义在于为句子嵌入研究提供了可扩展的基准数据,推动了对比学习与迁移学习在语义表示领域的融合创新。
衍生相关工作
该数据集直接支撑了BGE-M3等前沿嵌入模型的训练,并催生了一系列基于对比学习的语义表示研究。经典工作包括SimCSE的监督版本改进,其中利用NLI数据构建正负例对,显著提升了句子嵌入在STS任务上的性能。后续研究进一步探索了多负例采样策略、难负例挖掘技术,以及跨语言嵌入对齐方法,这些工作均以本数据集为基础实验平台,推动了语义相似度计算领域的持续演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作