synthetic-dataset-SentenceTransformer

Hugging Face2025-05-20 更新2025-05-21 收录

下载链接：

https://huggingface.co/datasets/bobox/synthetic-dataset-SentenceTransformer

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，每个配置有不同的数据集大小和特征。数据集包含训练集、验证集和测试集，且每个配置都有对应的文件路径。数据集的特征包括锚文本、正例文本、半硬负例文本、重述的锚文本、重述的正例文本、正例摘要、正例的语义关键词、硬负例文本、生成参数等。

This dataset includes multiple configurations, each with distinct dataset sizes and features. The dataset is split into training, validation, and test sets, and each configuration has a corresponding file path. The features of the dataset cover anchor text, positive text, semi-hard negative text, paraphrased anchor text, paraphrased positive text, positive summaries, semantic keywords of positive samples, hard negative text, generation parameters, and so on.

创建时间：

2025-05-18

原始信息汇总

数据集概述

基本信息

数据集名称: synthetic-dataset-SentenceTransformer
数据集地址: https://huggingface.co/datasets/bobox/synthetic-dataset-SentenceTransformer

配置信息

数据集包含多个配置，具体如下：

1. Asymm-Random

特征:
- anchor (string)
- positive (string)
- semi_hard_negative (string)
- rephrased_anchor (string)
- rephrased_positive (string)
- positive_summary (string)
- semantic_keywords_for_positive (string)
- hard_negative_0 (string)
- hard_negative_1 (string)
- hard_negative_2 (string)
- generation_params_json (string)
数据分割:
- train: 1263 个样本，6,282,010 字节
下载大小: 3,724,620 字节
数据集大小: 6,282,010 字节

2. Asymm-Random-Exp

特征: 同 Asymm-Random
数据分割:
- train: 590 个样本，2,951,439 字节
下载大小: 1,747,751 字节
数据集大小: 2,951,439 字节

3. QA-Random

特征: 同 Asymm-Random
数据分割:
- train: 660 个样本，3,331,057 字节
下载大小: 1,953,871 字节
数据集大小: 3,331,057 字节

4. QA-Random-Exp

特征: 同 Asymm-Random
数据分割:
- train: 989 个样本，4,781,726 字节
下载大小: 2,800,395 字节
数据集大小: 4,781,726 字节

5. Symm-Random

特征: 同 Asymm-Random
数据分割:
- train: 1026 个样本，4,068,551 字节
下载大小: 2,396,060 字节
数据集大小: 4,068,551 字节

6. Symm-Random-Exp

特征: 同 Asymm-Random
数据分割:
- train: 499 个样本，1,991,345 字节
下载大小: 1,174,186 字节
数据集大小: 1,991,345 字节

7. all-triplets

特征:
- anchor (string)
- positive (string)
- negative (string)
数据分割:
- train: 70,260 个样本，97,111,803 字节
- validation: 7,600 个样本，10,529,467 字节
- test: 22,680 个样本，31,203,203 字节
下载大小: 87,321,993 字节
数据集大小: 138,844,473 字节

8. global-dataset

特征: 同 Asymm-Random
数据分割:
- train: 3,513 个样本，16,356,818.711756514 字节
- validation: 380 个样本，1,769,311.446190571 字节
- test: 1,134 个样本，5,279,997.842052914 字节
下载大小: 13,772,831 字节
数据集大小: 23,406,128.0 字节

9. multi-negative-triplets

特征:
- anchor (string)
- positive (string)
- negative_1 (string)
- negative_2 (string)
- negative_3 (string)
- negative_4 (string)
数据分割:
- train: 21,078 个样本，55,255,185 字节
- validation: 2,280 个样本，6,037,524 字节
- test: 6,804 个样本，17,716,476 字节
下载大小: 49,096,922 字节
数据集大小: 79,009,185 字节

10. triplets-HN

特征:
- anchor (string)
- positive (string)
- negative (string)
数据分割:
- trainHN0: 10,539 个样本，17,385,399 字节
- validationHN0: 1,140 个样本，1,884,330 字节
- testHN0: 3,402 个样本，5,577,871 字节
- trainHN1: 10,539 个样本，16,010,382 字节
- validationHN1: 1,140 个样本，1,733,922 字节
- testHN1: 3,402 个样本，5,159,386 字节
- trainHN2: 10,539 个样本，15,881,715 字节
- validationHN2: 1,140 个样本，1,726,149 字节
- testHN2: 3,402 个样本，5,114,527 字节
- trainSH: 10,539 个样本，15,247,347 字节
- validationSH: 1,140 个样本，1,659,903 字节
- testSH: 3,402 个样本，4,903,084 字节
下载大小: 58,112,195 字节
数据集大小: 92,284,015 字节

11. triplets-uniquepairs

特征:
- anchor (string)
- positive (string)
- negative (string)
数据分割:
- train: 42,156 个样本，56,305,140 字节
- validation: 4,560 个样本，6,107,411 字节
- test: 13,608 个样本，18,091,941 字节
下载大小: 51,296,343 字节
数据集大小: 80,504,492 字节

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量的数据集对于模型训练至关重要。synthetic-dataset-SentenceTransformer通过精心设计的合成方法构建，包含多种配置如Asymm-Random、QA-Random等，每个配置均采用锚点-正例-负例的三元组结构。数据生成过程中，不仅包含基础文本对，还扩展了改写锚点、语义关键词等丰富特征，并通过JSON格式记录生成参数，确保数据可追溯性和多样性。

特点

该数据集以其多层次负样本设计脱颖而出，涵盖半硬负例、硬负例等多种类型，为对比学习提供细粒度监督信号。全局数据集配置整合了训练集、验证集和测试集，样本量达数万级别，且每个样本附带摘要和语义关键词，极大增强了文本表征学习的可解释性。不同配置间的结构差异为研究对称/非对称文本关系提供了灵活的实验基础。

使用方法

研究者可通过HuggingFace库直接加载特定配置，如'global-dataset'或'multi-negative-triplets'，快速接入现有训练流程。数据集支持标准的三元组输入格式，适用于SentenceTransformer等嵌入模型的对比损失计算。对于高级应用，可利用改写文本和语义关键词进行数据增强，或解析generation_params_json实现生成过程的可控复现。验证集和测试集的划分便于进行严格的模型性能评估。

背景与挑战

背景概述

synthetic-dataset-SentenceTransformer数据集是专为自然语言处理领域设计的合成数据集，旨在支持句子嵌入模型的训练与评估。该数据集由多个配置组成，包括Asymm-Random、QA-Random、Symm-Random等，涵盖了丰富的语义关系与文本变体。其核心研究问题聚焦于如何通过合成数据提升句子嵌入模型在语义相似性、问答匹配等任务中的表现。该数据集的构建为研究人员提供了多样化的训练样本，特别是在处理复杂语义关系和负样本生成方面展现了独特价值。

当前挑战

该数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，如何确保合成数据的多样性与真实性，以覆盖实际应用中的复杂语义场景，同时避免生成偏差对模型性能的影响；其二，在构建过程中，生成高质量的正负样本对需要精细的语义控制，尤其是硬负样本的生成需在语义相似性与区分度之间取得平衡。此外，多配置数据集的统一管理与规模扩展也对数据集的维护提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，synthetic-dataset-SentenceTransformer数据集以其丰富的三元组结构和多样化的负样本设计，成为评估和优化句子嵌入模型的基准工具。该数据集通过锚点、正例和负例的精心构造，为研究者提供了模拟真实语义相似性任务的理想实验环境，尤其在对比学习框架下展现出卓越的适用性。

衍生相关工作

该数据集催生了多项里程碑式研究，包括基于多负例对比学习的Sentence-BERT改进方案，以及结合课程学习策略的动态难负例采样算法。在跨语言嵌入领域，其数据构造范式被拓展应用于构建多语言平行语料库，推动了XLM-R等预训练模型的发展。

数据集最近研究