sentence-transformers/all-nli
收藏Hugging Face2024-05-15 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/all-nli
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
multilinguality:
- monolingual
size_categories:
- 1M<n<10M
task_categories:
- feature-extraction
- sentence-similarity
pretty_name: AllNLI
tags:
- sentence-transformers
dataset_info:
- config_name: pair
features:
- name: anchor
dtype: string
- name: positive
dtype: string
splits:
- name: train
num_bytes: 43012118
num_examples: 314315
- name: dev
num_bytes: 992955
num_examples: 6808
- name: test
num_bytes: 1042254
num_examples: 6831
download_size: 27501136
dataset_size: 45047327
- config_name: pair-class
features:
- name: premise
dtype: string
- name: hypothesis
dtype: string
- name: label
dtype:
class_label:
names:
'0': entailment
'1': neutral
'2': contradiction
splits:
- name: train
num_bytes: 138755142
num_examples: 942069
- name: dev
num_bytes: 3034127
num_examples: 19657
- name: test
num_bytes: 3142127
num_examples: 19656
download_size: 72651651
dataset_size: 144931396
- config_name: pair-score
features:
- name: sentence1
dtype: string
- name: sentence2
dtype: string
- name: score
dtype: float64
splits:
- name: train
num_bytes: 138755142
num_examples: 942069
- name: dev
num_bytes: 3034127
num_examples: 19657
- name: test
num_bytes: 3142127
num_examples: 19656
download_size: 72653539
dataset_size: 144931396
- config_name: triplet
features:
- name: anchor
dtype: string
- name: positive
dtype: string
- name: negative
dtype: string
splits:
- name: train
num_bytes: 98815977
num_examples: 557850
- name: dev
num_bytes: 1272591
num_examples: 6584
- name: test
num_bytes: 1341266
num_examples: 6609
download_size: 39988980
dataset_size: 101429834
configs:
- config_name: pair
data_files:
- split: train
path: pair/train-*
- split: dev
path: pair/dev-*
- split: test
path: pair/test-*
- config_name: pair-class
data_files:
- split: train
path: pair-class/train-*
- split: dev
path: pair-class/dev-*
- split: test
path: pair-class/test-*
- config_name: pair-score
data_files:
- split: train
path: pair-score/train-*
- split: dev
path: pair-score/dev-*
- split: test
path: pair-score/test-*
- config_name: triplet
data_files:
- split: train
path: triplet/train-*
- split: dev
path: triplet/dev-*
- split: test
path: triplet/test-*
---
# Dataset Card for AllNLI
This dataset is a concatenation of the [SNLI](https://huggingface.co/datasets/stanfordnlp/snli) and [MultiNLI](https://huggingface.co/datasets/nyu-mll/multi_nli) datasets.
Despite originally being intended for Natural Language Inference (NLI), this dataset can be used for training/finetuning an embedding model for semantic textual similarity.
## Dataset Subsets
### `pair-class` subset
* Columns: "premise", "hypothesis", "label"
* Column types: `str`, `str`, `class` with `{"0": "entailment", "1": "neutral", "2", "contradiction"}`
* Examples:
```python
{
'premise': 'A person on a horse jumps over a broken down airplane.',
'hypothesis': 'A person is training his horse for a competition.',
'label': 1,
}
```
* Collection strategy: Reading the premise, hypothesis and integer label from SNLI & MultiNLI datasets.
* Deduplified: Yes
### `pair-score` subset
* Columns: "sentence1", "sentence2", "score"
* Column types: `str`, `str`, `float`
* Examples:
```python
{
'sentence1': 'A person on a horse jumps over a broken down airplane.',
'sentence2': 'A person is training his horse for a competition.',
'score': 0.5,
}
```
* Collection strategy: Taking the `pair-class` subset and remapping "entailment", "neutral" and "contradiction" to 1.0, 0.5 and 0.0, respectively.
* Deduplified: Yes
### `pair` subset
* Columns: "anchor", "positive"
* Column types: `str`, `str`
* Examples:
```python
{
'anchor': 'A person on a horse jumps over a broken down airplane.',
'positive': 'A person is training his horse for a competition.',
}
```
* Collection strategy: Reading the SNLI & MultiNLI datasets and considering the "premise" as the "anchor" and the "hypothesis" as the "positive" if the label is "entailment". The reverse ("entailment" as "anchor" and "premise" as "positive") is not included.
* Deduplified: Yes
### `triplet` subset
* Columns: "anchor", "positive", "negative"
* Column types: `str`, `str`, `str`
* Examples:
```python
{
'anchor': 'A person on a horse jumps over a broken down airplane.',
'positive': 'A person is outdoors, on a horse.',
'negative': 'A person is at a diner, ordering an omelette.',
}
```
* Collection strategy: Reading the SNLI & MultiNLI datasets, for each "premise" making a list of entailing and contradictory sentences using the dataset labels. Then, considering all possible triplets out of these entailing and contradictory lists. The reverse ("entailment" as "anchor" and "premise" as "positive") is not included.
* Deduplified: Yes
语言:
- 英语(en)
多语言属性:
- 单语言(monolingual)
规模类别:
- 100万 < 样本数 < 1000万
任务类别:
- 特征提取
- 句子相似度
友好名称:AllNLI
标签:
- sentence-transformers
数据集信息:
- 配置名称:pair
特征:
- 名称:anchor
数据类型:字符串
- 名称:positive
数据类型:字符串
划分集:
- 名称:train
字节数:43012118
样本数:314315
- 名称:dev
字节数:992955
样本数:6808
- 名称:test
字节数:1042254
样本数:6831
下载大小:27501136
数据集总大小:45047327
- 配置名称:pair-class
特征:
- 名称:premise
数据类型:字符串
- 名称:hypothesis
数据类型:字符串
- 名称:label
数据类型:
类别标签:
映射名称:
'0': 蕴含(entailment)
'1': 中立(neutral)
'2': 矛盾(contradiction)
划分集:
- 名称:train
字节数:138755142
样本数:942069
- 名称:dev
字节数:3034127
样本数:19657
- 名称:test
字节数:3142127
样本数:19656
下载大小:72651651
数据集总大小:144931396
- 配置名称:pair-score
特征:
- 名称:sentence1
数据类型:字符串
- 名称:sentence2
数据类型:字符串
- 名称:score
数据类型:float64(双精度浮点数)
划分集:
- 名称:train
字节数:138755142
样本数:942069
- 名称:dev
字节数:3034127
样本数:19657
- 名称:test
字节数:3142127
样本数:19656
下载大小:72653539
数据集总大小:144931396
- 配置名称:triplet
特征:
- 名称:anchor
数据类型:字符串
- 名称:positive
数据类型:字符串
- 名称:negative
数据类型:字符串
划分集:
- 名称:train
字节数:98815977
样本数:557850
- 名称:dev
字节数:1272591
样本数:6584
- 名称:test
字节数:1341266
样本数:6609
下载大小:39988980
数据集总大小:101429834
配置项:
- 配置名称:pair
数据文件:
- 划分集:train
路径:pair/train-*
- 划分集:dev
路径:pair/dev-*
- 划分集:test
路径:pair/test-*
- 配置名称:pair-class
数据文件:
- 划分集:train
路径:pair-class/train-*
- 划分集:dev
路径:pair-class/dev-*
- 划分集:test
路径:pair-class/test-*
- 配置名称:pair-score
数据文件:
- 划分集:train
路径:pair-score/train-*
- 划分集:dev
路径:pair-score/dev-*
- 划分集:test
路径:pair-score/test-*
- 配置名称:triplet
数据文件:
- 划分集:train
路径:triplet/train-*
- 划分集:dev
路径:triplet/dev-*
- 划分集:test
路径:triplet/test-*
# AllNLI 数据集卡片
本数据集为斯坦福自然语言推理数据集(SNLI)与多领域自然语言推理数据集(MultiNLI)的拼接合集。尽管其最初设计初衷为自然语言推理(Natural Language Inference,NLI)任务,但本数据集亦可用于训练或微调面向语义文本相似度任务的嵌入模型。
## 数据集子集
### `pair-class` 子集
* 列名:「前提(premise)」、「假设(hypothesis)」、「标签(label)」
* 列类型:字符串、字符串、类别标签,映射关系为:`{"0": "蕴含(entailment)", "1": "中立(neutral)", "2": "矛盾(contradiction)"}`
* 示例:
python
{
'premise': 'A person on a horse jumps over a broken down airplane.',
'hypothesis': 'A person is training his horse for a competition.',
'label': 1,
}
* 采集策略:从SNLI与MultiNLI数据集中读取前提、假设与整数标签。
* 去重:是
### `pair-score` 子集
* 列名:「句子1(sentence1)」、「句子2(sentence2)」、「得分(score)」
* 列类型:字符串、字符串、双精度浮点数(float64)
* 示例:
python
{
'sentence1': 'A person on a horse jumps over a broken down airplane.',
'sentence2': 'A person is training his horse for a competition.',
'score': 0.5,
}
* 采集策略:基于`pair-class`子集,将「蕴含」「中立」「矛盾」分别映射为1.0、0.5与0.0。
* 去重:是
### `pair` 子集
* 列名:「锚点句(anchor)」、「正例句(positive)」
* 列类型:字符串、字符串
* 示例:
python
{
'anchor': 'A person on a horse jumps over a broken down airplane.',
'positive': 'A person is training his horse for a competition.',
}
* 采集策略:读取SNLI与MultiNLI数据集,当标签为「蕴含」时,将「前提」作为「锚点句」、「假设」作为「正例句」;不包含反向配对(即不以「蕴含」的假设为锚点句、前提为正例句的情况)。
* 去重:是
### `triplet` 子集
* 列名:「锚点句(anchor)」、「正例句(positive)」、「负例句(negative)」
* 列类型:字符串、字符串、字符串
* 示例:
python
{
'anchor': 'A person on a horse jumps over a broken down airplane.',
'positive': 'A person is outdoors, on a horse.',
'negative': 'A person is at a diner, ordering an omelette.',
}
* 采集策略:读取SNLI与MultiNLI数据集,针对每个「前提」,依据数据集标签生成蕴含句与矛盾句列表,再从这些列表中生成所有可能的三元组;同样不包含反向配对(即不以「蕴含」的假设为锚点句、前提为正例句的情况)。
* 去重:是
提供机构:
sentence-transformers
原始信息汇总
数据集概述
基本信息
- 名称: AllNLI
- 语言: 英语
- 多语言性: 单语种
- 大小: 1M<n<10M
- 任务类别: 特征提取, 句子相似度
- 标签: sentence-transformers
数据集配置
-
pair
- 特征:
anchor: 字符串positive: 字符串
- 分割:
train: 314315 个样本, 43012118 字节dev: 6808 个样本, 992955 字节test: 6831 个样本, 1042254 字节
- 下载大小: 27501136 字节
- 数据集大小: 45047327 字节
- 特征:
-
pair-class
- 特征:
premise: 字符串hypothesis: 字符串label: 类别 (0: entailment,1: neutral,2: contradiction)
- 分割:
train: 942069 个样本, 138755142 字节dev: 19657 个样本, 3034127 字节test: 19656 个样本, 3142127 字节
- 下载大小: 72651651 字节
- 数据集大小: 144931396 字节
- 特征:
-
pair-score
- 特征:
sentence1: 字符串sentence2: 字符串score: 浮点数
- 分割:
train: 942069 个样本, 138755142 字节dev: 19657 个样本, 3034127 字节test: 19656 个样本, 3142127 字节
- 下载大小: 72653539 字节
- 数据集大小: 144931396 字节
- 特征:
-
triplet
- 特征:
anchor: 字符串positive: 字符串negative: 字符串
- 分割:
train: 557850 个样本, 98815977 字节dev: 6584 个样本, 1272591 字节test: 6609 个样本, 1341266 字节
- 下载大小: 39988980 字节
- 数据集大小: 101429834 字节
- 特征:
数据文件配置
-
pair:
train: pair/train-*dev: pair/dev-*test: pair/test-*
-
pair-class:
train: pair-class/train-*dev: pair-class/dev-*test: pair-class/test-*
-
pair-score:
train: pair-score/train-*dev: pair-score/dev-*test: pair-score/test-*
-
triplet:
train: triplet/train-*dev: triplet/dev-*test: triplet/test-*
搜集汇总
数据集介绍
构建方式
在自然语言推理领域,AllNLI数据集通过整合SNLI与MultiNLI两大权威语料库构建而成。其构建过程遵循严谨的语义逻辑映射原则,将原始NLI任务中的前提与假设对,依据蕴含、中性和矛盾三类标签,系统转化为适用于句子嵌入训练的多种结构化子集。具体而言,数据经过去重处理后,分别生成包含类别标签的句对、连续相似度评分的句对、蕴含关系正例对以及三元组形式的锚点-正例-负例组合,确保了数据的一致性与高质量。
特点
AllNLI数据集展现出多维度、高适应性的特点,其核心在于提供了四种精心设计的子集配置,覆盖了从分类到相似度计算的多样化语义表示需求。每个子集均具备清晰的字段定义,如“premise-hypothesis-label”结构保留了原始NLI任务的推理信息,而“anchor-positive-negative”三元组则直接支持对比学习框架。数据集规模适中,包含近百万训练实例,且经过去重处理,有效提升了数据的纯净度与训练效率,为语义嵌入模型提供了丰富而可靠的监督信号。
使用方法
该数据集主要服务于句子嵌入模型的训练与微调,使用者可根据目标任务灵活选取相应子集。对于语义相似度学习,可直接利用pair-score子集中的连续分数进行回归训练,或借助pair-class子集进行离散标签的分类学习。若采用对比学习范式,则可选用pair或triplet子集,通过锚点与正负例的对比优化嵌入空间。数据集已划分为训练、开发与测试集,支持标准的机器学习工作流程,便于模型验证与性能评估。
背景与挑战
背景概述
在自然语言处理领域,语义表示学习一直是核心研究议题,旨在将文本映射为富含语义信息的向量空间。AllNLI数据集由sentence-transformers团队于近年构建,其本质是对斯坦福大学SNLI与纽约大学MultiNLI两大经典数据集的整合与重构。该数据集的核心研究问题聚焦于超越传统的自然语言推理任务,转而服务于句子嵌入模型的训练与优化,从而推动语义文本相似性计算的发展。通过提供多种数据子集格式,AllNLI为对比学习和度量学习等前沿方法提供了高质量、大规模的训练资源,显著提升了句子级别语义表示模型的性能与泛化能力,对信息检索、问答系统等下游应用产生了深远影响。
当前挑战
AllNLI数据集致力于解决语义文本相似性评估这一复杂任务,其核心挑战在于如何精准量化句子间细微且多层次的语义关联。传统自然语言推理标签(蕴含、中立、矛盾)到连续相似性分数的映射过程,难以完全捕捉人类对语义相似度的连续、主观的直觉判断。在数据集构建层面,挑战主要源于源数据的整合与转化。原始SNLI和MultiNLI数据集并非为直接训练嵌入模型而设计,因此需要设计精妙的策略来从离散的推理标签中推导出可用于对比学习或三元组学习的正负样本对。例如,在构建三元组子集时,如何从蕴含和矛盾关系中系统性地生成高质量且具有区分度的(锚点,正例,负例)组合,同时避免引入噪声或偏见,是构建过程中的关键难题。
常用场景
经典使用场景
在自然语言处理领域,语义相似性计算是文本理解的核心任务之一。AllNLI数据集通过整合SNLI和MultiNLI两大权威自然语言推理数据集,为训练和微调句子嵌入模型提供了丰富的语义关系标注。其经典使用场景在于利用蕴含、中立和矛盾三类逻辑关系,构建高质量的句子对或三元组样本,从而优化模型对文本深层语义的捕捉能力,广泛应用于句子表示学习和语义匹配任务中。
实际应用
在实际应用层面,基于AllNLI训练的语义嵌入模型已广泛应用于智能问答系统、文档检索引擎和对话机器人等场景。例如,在电商平台中,模型可通过学习商品描述与用户查询的语义匹配,提升搜索结果的准确性;在客户服务领域,系统能自动识别用户意图与知识库条目之间的关联,实现高效的问题解答。这些应用显著提升了自然语言交互系统的智能化水平与用户体验。
衍生相关工作
AllNLI数据集催生了众多经典研究工作,尤其在句子嵌入领域。以Sentence-BERT为代表的方法利用该数据集的三元组结构,通过对比学习优化了BERT等预训练模型的句子表示能力。后续工作如SimCSE进一步探索了无监督与有监督结合的训练策略,在语义相似性任务上取得了突破性进展。这些衍生研究不仅推动了语义表示技术的发展,也为多语言和跨模态嵌入学习提供了重要借鉴。
以上内容由遇见数据集搜集并总结生成



