sentence-transformers/all-nli

Name: sentence-transformers/all-nli
Creator: sentence-transformers
Published: 2024-05-15 11:22:30
License: 暂无描述

Hugging Face2024-05-15 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/sentence-transformers/all-nli

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en multilinguality: - monolingual size_categories: - 1M<n<10M task_categories: - feature-extraction - sentence-similarity pretty_name: AllNLI tags: - sentence-transformers dataset_info: - config_name: pair features: - name: anchor dtype: string - name: positive dtype: string splits: - name: train num_bytes: 43012118 num_examples: 314315 - name: dev num_bytes: 992955 num_examples: 6808 - name: test num_bytes: 1042254 num_examples: 6831 download_size: 27501136 dataset_size: 45047327 - config_name: pair-class features: - name: premise dtype: string - name: hypothesis dtype: string - name: label dtype: class_label: names: '0': entailment '1': neutral '2': contradiction splits: - name: train num_bytes: 138755142 num_examples: 942069 - name: dev num_bytes: 3034127 num_examples: 19657 - name: test num_bytes: 3142127 num_examples: 19656 download_size: 72651651 dataset_size: 144931396 - config_name: pair-score features: - name: sentence1 dtype: string - name: sentence2 dtype: string - name: score dtype: float64 splits: - name: train num_bytes: 138755142 num_examples: 942069 - name: dev num_bytes: 3034127 num_examples: 19657 - name: test num_bytes: 3142127 num_examples: 19656 download_size: 72653539 dataset_size: 144931396 - config_name: triplet features: - name: anchor dtype: string - name: positive dtype: string - name: negative dtype: string splits: - name: train num_bytes: 98815977 num_examples: 557850 - name: dev num_bytes: 1272591 num_examples: 6584 - name: test num_bytes: 1341266 num_examples: 6609 download_size: 39988980 dataset_size: 101429834 configs: - config_name: pair data_files: - split: train path: pair/train-* - split: dev path: pair/dev-* - split: test path: pair/test-* - config_name: pair-class data_files: - split: train path: pair-class/train-* - split: dev path: pair-class/dev-* - split: test path: pair-class/test-* - config_name: pair-score data_files: - split: train path: pair-score/train-* - split: dev path: pair-score/dev-* - split: test path: pair-score/test-* - config_name: triplet data_files: - split: train path: triplet/train-* - split: dev path: triplet/dev-* - split: test path: triplet/test-* --- # Dataset Card for AllNLI This dataset is a concatenation of the [SNLI](https://huggingface.co/datasets/stanfordnlp/snli) and [MultiNLI](https://huggingface.co/datasets/nyu-mll/multi_nli) datasets. Despite originally being intended for Natural Language Inference (NLI), this dataset can be used for training/finetuning an embedding model for semantic textual similarity. ## Dataset Subsets ### `pair-class` subset * Columns: "premise", "hypothesis", "label" * Column types: `str`, `str`, `class` with `{"0": "entailment", "1": "neutral", "2", "contradiction"}` * Examples: ```python { 'premise': 'A person on a horse jumps over a broken down airplane.', 'hypothesis': 'A person is training his horse for a competition.', 'label': 1, } ``` * Collection strategy: Reading the premise, hypothesis and integer label from SNLI & MultiNLI datasets. * Deduplified: Yes ### `pair-score` subset * Columns: "sentence1", "sentence2", "score" * Column types: `str`, `str`, `float` * Examples: ```python { 'sentence1': 'A person on a horse jumps over a broken down airplane.', 'sentence2': 'A person is training his horse for a competition.', 'score': 0.5, } ``` * Collection strategy: Taking the `pair-class` subset and remapping "entailment", "neutral" and "contradiction" to 1.0, 0.5 and 0.0, respectively. * Deduplified: Yes ### `pair` subset * Columns: "anchor", "positive" * Column types: `str`, `str` * Examples: ```python { 'anchor': 'A person on a horse jumps over a broken down airplane.', 'positive': 'A person is training his horse for a competition.', } ``` * Collection strategy: Reading the SNLI & MultiNLI datasets and considering the "premise" as the "anchor" and the "hypothesis" as the "positive" if the label is "entailment". The reverse ("entailment" as "anchor" and "premise" as "positive") is not included. * Deduplified: Yes ### `triplet` subset * Columns: "anchor", "positive", "negative" * Column types: `str`, `str`, `str` * Examples: ```python { 'anchor': 'A person on a horse jumps over a broken down airplane.', 'positive': 'A person is outdoors, on a horse.', 'negative': 'A person is at a diner, ordering an omelette.', } ``` * Collection strategy: Reading the SNLI & MultiNLI datasets, for each "premise" making a list of entailing and contradictory sentences using the dataset labels. Then, considering all possible triplets out of these entailing and contradictory lists. The reverse ("entailment" as "anchor" and "premise" as "positive") is not included. * Deduplified: Yes

语言： - 英语（en）多语言属性： - 单语言（monolingual）规模类别： - 100万 < 样本数 < 1000万任务类别： - 特征提取 - 句子相似度友好名称：AllNLI 标签： - sentence-transformers 数据集信息： - 配置名称：pair 特征： - 名称：anchor 数据类型：字符串 - 名称：positive 数据类型：字符串划分集： - 名称：train 字节数：43012118 样本数：314315 - 名称：dev 字节数：992955 样本数：6808 - 名称：test 字节数：1042254 样本数：6831 下载大小：27501136 数据集总大小：45047327 - 配置名称：pair-class 特征： - 名称：premise 数据类型：字符串 - 名称：hypothesis 数据类型：字符串 - 名称：label 数据类型：类别标签：映射名称： '0': 蕴含（entailment） '1': 中立（neutral） '2': 矛盾（contradiction）划分集： - 名称：train 字节数：138755142 样本数：942069 - 名称：dev 字节数：3034127 样本数：19657 - 名称：test 字节数：3142127 样本数：19656 下载大小：72651651 数据集总大小：144931396 - 配置名称：pair-score 特征： - 名称：sentence1 数据类型：字符串 - 名称：sentence2 数据类型：字符串 - 名称：score 数据类型：float64（双精度浮点数）划分集： - 名称：train 字节数：138755142 样本数：942069 - 名称：dev 字节数：3034127 样本数：19657 - 名称：test 字节数：3142127 样本数：19656 下载大小：72653539 数据集总大小：144931396 - 配置名称：triplet 特征： - 名称：anchor 数据类型：字符串 - 名称：positive 数据类型：字符串 - 名称：negative 数据类型：字符串划分集： - 名称：train 字节数：98815977 样本数：557850 - 名称：dev 字节数：1272591 样本数：6584 - 名称：test 字节数：1341266 样本数：6609 下载大小：39988980 数据集总大小：101429834 配置项： - 配置名称：pair 数据文件： - 划分集：train 路径：pair/train-* - 划分集：dev 路径：pair/dev-* - 划分集：test 路径：pair/test-* - 配置名称：pair-class 数据文件： - 划分集：train 路径：pair-class/train-* - 划分集：dev 路径：pair-class/dev-* - 划分集：test 路径：pair-class/test-* - 配置名称：pair-score 数据文件： - 划分集：train 路径：pair-score/train-* - 划分集：dev 路径：pair-score/dev-* - 划分集：test 路径：pair-score/test-* - 配置名称：triplet 数据文件： - 划分集：train 路径：triplet/train-* - 划分集：dev 路径：triplet/dev-* - 划分集：test 路径：triplet/test-* # AllNLI 数据集卡片本数据集为斯坦福自然语言推理数据集（SNLI）与多领域自然语言推理数据集（MultiNLI）的拼接合集。尽管其最初设计初衷为自然语言推理（Natural Language Inference，NLI）任务，但本数据集亦可用于训练或微调面向语义文本相似度任务的嵌入模型。 ## 数据集子集 ### `pair-class` 子集 * 列名：「前提（premise）」、「假设（hypothesis）」、「标签（label）」 * 列类型：字符串、字符串、类别标签，映射关系为：`{"0": "蕴含（entailment）", "1": "中立（neutral）", "2": "矛盾（contradiction）"}` * 示例： python { 'premise': 'A person on a horse jumps over a broken down airplane.', 'hypothesis': 'A person is training his horse for a competition.', 'label': 1, } * 采集策略：从SNLI与MultiNLI数据集中读取前提、假设与整数标签。 * 去重：是 ### `pair-score` 子集 * 列名：「句子1（sentence1）」、「句子2（sentence2）」、「得分（score）」 * 列类型：字符串、字符串、双精度浮点数（float64） * 示例： python { 'sentence1': 'A person on a horse jumps over a broken down airplane.', 'sentence2': 'A person is training his horse for a competition.', 'score': 0.5, } * 采集策略：基于`pair-class`子集，将「蕴含」「中立」「矛盾」分别映射为1.0、0.5与0.0。 * 去重：是 ### `pair` 子集 * 列名：「锚点句（anchor）」、「正例句（positive）」 * 列类型：字符串、字符串 * 示例： python { 'anchor': 'A person on a horse jumps over a broken down airplane.', 'positive': 'A person is training his horse for a competition.', } * 采集策略：读取SNLI与MultiNLI数据集，当标签为「蕴含」时，将「前提」作为「锚点句」、「假设」作为「正例句」；不包含反向配对（即不以「蕴含」的假设为锚点句、前提为正例句的情况）。 * 去重：是 ### `triplet` 子集 * 列名：「锚点句（anchor）」、「正例句（positive）」、「负例句（negative）」 * 列类型：字符串、字符串、字符串 * 示例： python { 'anchor': 'A person on a horse jumps over a broken down airplane.', 'positive': 'A person is outdoors, on a horse.', 'negative': 'A person is at a diner, ordering an omelette.', } * 采集策略：读取SNLI与MultiNLI数据集，针对每个「前提」，依据数据集标签生成蕴含句与矛盾句列表，再从这些列表中生成所有可能的三元组；同样不包含反向配对（即不以「蕴含」的假设为锚点句、前提为正例句的情况）。 * 去重：是

提供机构：

sentence-transformers

原始信息汇总

数据集概述

基本信息

名称: AllNLI
语言: 英语
多语言性: 单语种
大小: 1M<n<10M
任务类别: 特征提取, 句子相似度
标签: sentence-transformers

数据集配置

pair
- 特征:
  - anchor: 字符串
  - positive: 字符串
- 分割:
  - train: 314315 个样本, 43012118 字节
  - dev: 6808 个样本, 992955 字节
  - test: 6831 个样本, 1042254 字节
- 下载大小: 27501136 字节
- 数据集大小: 45047327 字节
pair-class
- 特征:
  - premise: 字符串
  - hypothesis: 字符串
  - label: 类别 (0: entailment, 1: neutral, 2: contradiction)
- 分割:
  - train: 942069 个样本, 138755142 字节
  - dev: 19657 个样本, 3034127 字节
  - test: 19656 个样本, 3142127 字节
- 下载大小: 72651651 字节
- 数据集大小: 144931396 字节
pair-score
- 特征:
  - sentence1: 字符串
  - sentence2: 字符串
  - score: 浮点数
- 分割:
  - train: 942069 个样本, 138755142 字节
  - dev: 19657 个样本, 3034127 字节
  - test: 19656 个样本, 3142127 字节
- 下载大小: 72653539 字节
- 数据集大小: 144931396 字节
triplet
- 特征:
  - anchor: 字符串
  - positive: 字符串
  - negative: 字符串
- 分割:
  - train: 557850 个样本, 98815977 字节
  - dev: 6584 个样本, 1272591 字节
  - test: 6609 个样本, 1341266 字节
- 下载大小: 39988980 字节
- 数据集大小: 101429834 字节

数据文件配置

pair:
- train: pair/train-*
- dev: pair/dev-*
- test: pair/test-*
pair-class:
- train: pair-class/train-*
- dev: pair-class/dev-*
- test: pair-class/test-*
pair-score:
- train: pair-score/train-*
- dev: pair-score/dev-*
- test: pair-score/test-*
triplet:
- train: triplet/train-*
- dev: triplet/dev-*
- test: triplet/test-*

搜集汇总

数据集介绍

构建方式

在自然语言推理领域，AllNLI数据集通过整合SNLI与MultiNLI两大权威语料库构建而成。其构建过程遵循严谨的语义逻辑映射原则，将原始NLI任务中的前提与假设对，依据蕴含、中性和矛盾三类标签，系统转化为适用于句子嵌入训练的多种结构化子集。具体而言，数据经过去重处理后，分别生成包含类别标签的句对、连续相似度评分的句对、蕴含关系正例对以及三元组形式的锚点-正例-负例组合，确保了数据的一致性与高质量。

特点

AllNLI数据集展现出多维度、高适应性的特点，其核心在于提供了四种精心设计的子集配置，覆盖了从分类到相似度计算的多样化语义表示需求。每个子集均具备清晰的字段定义，如“premise-hypothesis-label”结构保留了原始NLI任务的推理信息，而“anchor-positive-negative”三元组则直接支持对比学习框架。数据集规模适中，包含近百万训练实例，且经过去重处理，有效提升了数据的纯净度与训练效率，为语义嵌入模型提供了丰富而可靠的监督信号。

使用方法

该数据集主要服务于句子嵌入模型的训练与微调，使用者可根据目标任务灵活选取相应子集。对于语义相似度学习，可直接利用pair-score子集中的连续分数进行回归训练，或借助pair-class子集进行离散标签的分类学习。若采用对比学习范式，则可选用pair或triplet子集，通过锚点与正负例的对比优化嵌入空间。数据集已划分为训练、开发与测试集，支持标准的机器学习工作流程，便于模型验证与性能评估。

背景与挑战

背景概述

在自然语言处理领域，语义表示学习一直是核心研究议题，旨在将文本映射为富含语义信息的向量空间。AllNLI数据集由sentence-transformers团队于近年构建，其本质是对斯坦福大学SNLI与纽约大学MultiNLI两大经典数据集的整合与重构。该数据集的核心研究问题聚焦于超越传统的自然语言推理任务，转而服务于句子嵌入模型的训练与优化，从而推动语义文本相似性计算的发展。通过提供多种数据子集格式，AllNLI为对比学习和度量学习等前沿方法提供了高质量、大规模的训练资源，显著提升了句子级别语义表示模型的性能与泛化能力，对信息检索、问答系统等下游应用产生了深远影响。

当前挑战

AllNLI数据集致力于解决语义文本相似性评估这一复杂任务，其核心挑战在于如何精准量化句子间细微且多层次的语义关联。传统自然语言推理标签（蕴含、中立、矛盾）到连续相似性分数的映射过程，难以完全捕捉人类对语义相似度的连续、主观的直觉判断。在数据集构建层面，挑战主要源于源数据的整合与转化。原始SNLI和MultiNLI数据集并非为直接训练嵌入模型而设计，因此需要设计精妙的策略来从离散的推理标签中推导出可用于对比学习或三元组学习的正负样本对。例如，在构建三元组子集时，如何从蕴含和矛盾关系中系统性地生成高质量且具有区分度的（锚点，正例，负例）组合，同时避免引入噪声或偏见，是构建过程中的关键难题。

常用场景

经典使用场景

在自然语言处理领域，语义相似性计算是文本理解的核心任务之一。AllNLI数据集通过整合SNLI和MultiNLI两大权威自然语言推理数据集，为训练和微调句子嵌入模型提供了丰富的语义关系标注。其经典使用场景在于利用蕴含、中立和矛盾三类逻辑关系，构建高质量的句子对或三元组样本，从而优化模型对文本深层语义的捕捉能力，广泛应用于句子表示学习和语义匹配任务中。

实际应用

在实际应用层面，基于AllNLI训练的语义嵌入模型已广泛应用于智能问答系统、文档检索引擎和对话机器人等场景。例如，在电商平台中，模型可通过学习商品描述与用户查询的语义匹配，提升搜索结果的准确性；在客户服务领域，系统能自动识别用户意图与知识库条目之间的关联，实现高效的问题解答。这些应用显著提升了自然语言交互系统的智能化水平与用户体验。

衍生相关工作

AllNLI数据集催生了众多经典研究工作，尤其在句子嵌入领域。以Sentence-BERT为代表的方法利用该数据集的三元组结构，通过对比学习优化了BERT等预训练模型的句子表示能力。后续工作如SimCSE进一步探索了无监督与有监督结合的训练策略，在语义相似性任务上取得了突破性进展。这些衍生研究不仅推动了语义表示技术的发展，也为多语言和跨模态嵌入学习提供了重要借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集