sentence-transformers/nli-for-simcse

Name: sentence-transformers/nli-for-simcse
Creator: sentence-transformers
Published: 2024-06-18 21:02:06
License: 暂无描述

Hugging Face2024-06-18 更新2024-06-25 收录

下载链接：

https://hf-mirror.com/datasets/sentence-transformers/nli-for-simcse

下载链接

链接失效反馈

官方服务：

资源简介：

NLI for SimCSE数据集是一个用于训练或微调嵌入模型的数据集，主要用于语义文本相似性任务。数据集包含三个子集：triplet、triplet-7和triplet-all。每个子集都包含anchor、positive和negative列，数据类型均为字符串。triplet子集每个样本包含一个negative，triplet-7子集每个样本包含七个negative，triplet-all子集则包含所有negative，每个negative生成一个单独的样本。数据集未进行去重处理。

提供机构：

sentence-transformers

原始信息汇总

数据集卡片 NLI for SimCSE

数据集概述

语言: 英语
多语言性: 单语种
数据集大小: 1M < n < 10M
任务类别: 特征提取, 句子相似度
标签: sentence-transformers

数据集配置

`triplet` 子集

特征:
- anchor: 字符串
- positive: 字符串
- negative: 字符串
分割:
- train:
  - 字节数: 51033641
  - 样本数: 274951
下载大小: 33517191
数据集大小: 51033641

`triplet-7` 子集

特征:
- anchor: 字符串
- positive: 字符串
- negative_1 至 negative_7: 字符串
分割:
- train:
  - 字节数: 129065964
  - 样本数: 273540
下载大小: 87886620
数据集大小: 129065964

`triplet-all` 子集

特征:
- anchor: 字符串
- positive: 字符串
- negative: 字符串
分割:
- train:
  - 字节数: 357145333
  - 样本数: 1925996
下载大小: 94616052
数据集大小: 357145333

数据集子集

`triplet` 子集

列: "anchor", "positive", "negative"
列类型: str, str, str
示例: python { anchor: One of our number will carry out your instructions minutely., positive: A member of my team will execute your orders with immense precision., negative: We have no one free at the moment so you have to take action yourself. }
收集策略: 从 en_NLI_data 目录中读取 jsonl 文件，仅取第一个 negative。
去重: 否

`triplet-7` 子集

列: "anchor", "positive", "negative_1", "negative_2", "negative_3", "negative_4", "negative_5", "negative_6", "negative_7"
列类型: str, str, str, str, str, str, str
示例: python { anchor: One of our number will carry out your instructions minutely., positive: A member of my team will execute your orders with immense precision., negative_1: We have no one free at the moment so you have to take action yourself., negative_2: A poodle is running through the grass., negative_3: Investment and planning are growing industries in Jamaica., negative_4: A bearded man is rocking out on an acoustic guitar, negative_5: The people are sunbathing on the beach., negative_6: A construction worker installs a door., negative_7: A crowd has gathered because of a dangerous situation. }
收集策略: 从 en_NLI_data 目录中读取 jsonl 文件，取所有包含 7 个 negatives 的样本。
去重: 否

`triplet-all` 子集

列: "anchor", "positive", "negative"
列类型: str, str, str
示例: python { anchor: One of our number will carry out your instructions minutely., positive: A member of my team will execute your orders with immense precision., negative: We have no one free at the moment so you have to take action yourself. }
收集策略: 从 en_NLI_data 目录中读取 jsonl 文件，取每个 negative，并为每个 negative 生成一个单独的样本。
去重: 否

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，语义相似性任务对高质量数据的需求日益增长。该数据集源自Shitao/bge-m3-data中的en_NLI_data目录，通过解析jsonl文件构建而成。其核心采用三元组结构，包含锚点句、正例句和负例句，其中锚点句与正例句语义相近，与负例句语义相异。数据集提供了三种配置：triplet仅取首个负例，triplet-7选取包含七个负例的样本，triplet-all则为每个负例生成独立样本，共同构成了规模达百万级别的英文语料集合。

特点

该数据集专为训练语义文本相似性模型设计，其显著特点在于丰富的负例配置。triplet配置提供基础的三元组，triplet-7为每个锚点配备多达七个语义各异的负例，能有效增强模型区分细微语义差异的能力。triplet-all则通过展开所有负例生成大量训练样本，极大扩充了数据规模。所有样本均以字符串形式存储，结构清晰，便于直接用于对比学习框架，如SimCSE等先进嵌入模型的微调。

使用方法

研究人员可利用该数据集训练或微调句子嵌入模型，以提升语义相似性计算性能。使用时可选择不同配置：triplet适用于基础对比学习；triplet-7能提供更密集的负例采样，有助于模型学习更精细的语义边界；triplet-all则适合需要大规模训练数据的场景。通过加载指定配置，模型可读取锚点、正例和负例句子，并采用对比损失函数进行优化，最终获得高质量的句子向量表示，应用于检索、聚类及自然语言推理等多种下游任务。

背景与挑战

背景概述

在自然语言处理领域，语义文本相似性评估是核心任务之一，其目标在于量化文本片段之间的语义关联度。sentence-transformers/nli-for-simcse数据集作为BGE-M3模型训练的关键资源，由北京智源人工智能研究院（BAAI）的研究团队于2023年构建，旨在通过自然语言推理数据优化句子嵌入表示。该数据集基于大规模英文NLI数据重构，以三元组形式组织，包含锚点句、正例句和负例句，直接服务于对比学习框架下的语义相似性建模，推动了嵌入模型在信息检索、问答系统等下游任务中的性能提升。

当前挑战

该数据集致力于解决语义文本相似性任务中的挑战，即如何精准捕捉句子间细微的语义差异，并生成具有判别力的向量表示。在构建过程中，面临多重困难：首先，从原始NLI数据中筛选高质量的三元组需要克服噪声干扰，确保正负例在语义上的清晰界限；其次，负例的多样性设计至关重要，需避免简单负例导致的模型过拟合，同时维持数据规模的平衡。此外，数据重构时未进行去重处理，可能引入冗余信息，增加了模型训练的复杂度。

常用场景

经典使用场景

在自然语言处理领域，语义相似度计算是文本理解的核心任务之一。NLI for SimCSE数据集通过提供精心构建的锚点-正例-负例三元组，为训练对比学习模型提供了高质量语料。该数据集最经典的使用场景是微调句子嵌入模型，使模型能够准确区分语义相近与相异的句子对，从而提升语义相似性评估的精度。其结构化设计特别适用于SimCSE等自监督对比学习框架，通过拉近语义相似句子的嵌入距离、推远无关句子的距离，有效优化向量表示空间。

解决学术问题

该数据集主要针对句子嵌入学习中监督信号不足的学术难题。传统无监督方法难以捕获细粒度语义关系，而人工标注数据成本高昂。NLI for SimCSE利用自然语言推理任务的标注数据，将蕴含、中立、矛盾三类逻辑关系转化为对比学习所需的相似性监督信号，解决了弱监督场景下语义表示优化的瓶颈。其意义在于为句子嵌入研究提供了可扩展的基准数据，推动了对比学习与迁移学习在语义表示领域的融合创新。

衍生相关工作

该数据集直接支撑了BGE-M3等前沿嵌入模型的训练，并催生了一系列基于对比学习的语义表示研究。经典工作包括SimCSE的监督版本改进，其中利用NLI数据构建正负例对，显著提升了句子嵌入在STS任务上的性能。后续研究进一步探索了多负例采样策略、难负例挖掘技术，以及跨语言嵌入对齐方法，这些工作均以本数据集为基础实验平台，推动了语义相似度计算领域的持续演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

sentence-transformers/nli-for-simcse

数据集卡片 NLI for SimCSE

数据集概述

数据集配置

triplet 子集

triplet-7 子集

triplet-all 子集

数据集子集

triplet 子集

triplet-7 子集

triplet-all 子集

`triplet` 子集

`triplet-7` 子集

`triplet-all` 子集

`triplet` 子集

`triplet-7` 子集

`triplet-all` 子集