sentence-transformers/embedding-training-data

Name: sentence-transformers/embedding-training-data
Creator: sentence-transformers
Published: 2024-09-11 10:17:56
License: 暂无描述

Hugging Face2024-09-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/sentence-transformers/embedding-training-data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于训练文本嵌入模型的训练文件，支持多种数据格式，如Pairs、Triplets、Sets、Query-Pairs和Query-Triplets。数据集列表包括来自Google自动建议、Yahoo Answers、MS MARCO、StackExchange、ELI5、SQuAD、WikiHow、Amazon、Natural Questions、S2ORC、Quora、WikiAnswers、SearchQA、AG News、SNLI、MultiNLI、SPECTER、SimpleWiki、PAQ、altlex、CC News、CodeSearchNet、Sentence-Compression、TriviaQA、CNN Dailymail、Flickr30k、XSUM和COCO等多个来源的数据。每个数据集都有详细的描述、大小、性能指标和参考来源。

提供机构：

sentence-transformers

原始信息汇总

文本嵌入模型训练数据集

本仓库包含用于训练文本嵌入模型的训练文件，例如使用sentence-transformers。

数据格式

所有文件均为jsonl.gz格式：每行包含一个代表一个训练示例的JSON对象。

JSON对象可以有不同的格式：

Pairs: ["text1", "text2"] - 这是一个在向量空间中应该接近的正样本对。
Triplets: ["anchor", "positive", "negative"] - 这是一个三元组：positive文本应接近anchor，而negative文本应远离anchor。
Sets: {"set": ["text1", "text2", ...]} - 一组描述同一事物的文本，例如同一问题的不同释义，同一图像的不同标题。任何元素的组合都被视为正样本对。
Query-Pairs: {"query": "text", "pos": ["text1", "text2", ...]} - 一个查询和一组正样本文本。可以通过从pos中随机选择一个文本来形成对["query", "positive"]。
Query-Triplets: {"query": "text", "pos": ["text1", "text2", ...], "neg": ["text1", "text2", ...]} - 一个查询和一组正样本文本及负样本文本。可以通过从pos和neg中随机选择文本来形成三元组["query", "positive", "negative"]。

可用数据集

数据集	描述	大小（行数）	性能	参考
gooaq_pairs.jsonl.gz	Google自动建议的(问题, 答案)对	3,012,496	59.06	GooAQ
yahoo_answers_title_answer.jsonl.gz	Yahoo Answers的(标题, 答案)对	1,198,260	58.65	Yahoo Answers
msmarco-triplets.jsonl.gz	MS MARCO Passages数据集的(问题, 答案, 负样本)三元组	499,184	58.76	MS MARCO Passages
stackexchange_duplicate_questions_title_title.jsonl.gz	StackExchange的重复问题(标题, 标题)对	304,525	58.47	Stack Exchange Data API
eli5_question_answer.jsonl.gz	ELI5数据集的(问题, 答案)对	325,475	58.24	ELI5
yahoo_answers_title_question.jsonl.gz	Yahoo Answers的(标题, 问题正文)对	659,896	58.05	Yahoo Answers
squad_pairs.jsonl.gz	SQuAD数据集的(问题, 答案段落)对	87,599	58.02	SQuAD
yahoo_answers_question_answer.jsonl.gz	Yahoo Answers的(问题正文, 答案)对	681,164	57.74	Yahoo Answers
wikihow.jsonl.gz	WikiHow的(摘要, 文本)对	128,542	57.67	WikiHow
amazon_review_2018.jsonl.gz	Amazon的(标题, 评论)对	87,877,725	57.65	Amazon review data (2018)
NQ-train_pairs.jsonl.gz	NQ数据集的训练对(查询, 答案段落)	100,231	57.48	Natural Questions
amazon-qa.jsonl.gz	Amazon的(问题, 答案)对	1,095,290	57.48	AmazonQA
S2ORC_title_abstract.jsonl.gz	科学论文的(标题, 摘要)对	41,769,185	57.39	S2ORC
quora_duplicates.jsonl.gz	Quora的重复问题对	103,663	57.36	QQP
WikiAnswers.jsonl.gz	重复问题集	27,383,151	57.34	WikiAnswers Corpus
searchQA_top5_snippets.jsonl.gz	SearchQA数据集的问题 + Top5文本片段	117,220	57.34	search_qa
stackexchange_duplicate_questions_title-body_title-body.jsonl.gz	StackExchange的重复问题(标题+正文, 标题+正文)对	250,460	57.30	Stack Exchange Data API
S2ORC_citations_titles.jsonl.gz	引文网络(论文标题)	51,030,086	57.28	S2ORC
stackexchange_duplicate_questions_body_body.jsonl.gz	StackExchange的重复问题(正文, 正文)对	250,519	57.26	Stack Exchange Data API
agnews.jsonl.gz	AG News数据集的新闻文章(标题, 描述)对	1,157,745	57.25	AG news corpus
quora_duplicates_triplets.jsonl.gz	Quora的重复问题对，带有额外的硬负样本（通过交叉编码器挖掘和去噪）	101,762	56.97	QQP
AllNLI.jsonl.gz	SNLI + MultiNLI三元组：(锚点, 蕴含文本, 矛盾文本)	277,230	56.57	SNLI and MNLI
npr.jsonl.gz	npr.org网站的(标题, 正文)对	594,384	56.44	Pushshift
specter_train_triples.jsonl.gz	Specter的科学出版物三元组(标题, 相关标题, 硬负样本)	684,100	56.32	SPECTER
SimpleWiki.jsonl.gz	匹配对(英语维基百科, 简单英语维基百科)	102,225	56.15	SimpleWiki
PAQ_pairs.jsonl.gz	PAQ数据集的训练对(查询, 答案段落)	64,371,441	56.11	PAQ
altlex.jsonl.gz	匹配对(英语维基百科, 简单英语维基百科)	112,696	55.95	altlex
ccnews_title_text.jsonl.gz	CC News数据集的(标题, 文章)对	614,664	55.84	CC-News
codesearchnet.jsonl.gz	CodeSearchNet语料库是GitHub上托管的开源库的(注释, 代码)对。它包含多种编程语言的代码和文档。	1,151,414	55.80	CodeSearchNet
S2ORC_citations_abstracts.jsonl.gz	引文网络(论文摘要)	39,567,485	55.74	S2ORC
sentence-compression.jsonl.gz	句子压缩的(长文本, 短文本)对	180,000	55.63	Sentence-Compression
TriviaQA_pairs.jsonl.gz	TriviaQA数据集的(查询, 答案)对	73,346	55.56	TriviaQA
cnn_dailymail_splitted.jsonl.gz	CNN Dailymail数据集的(文章, 高亮句子)，每个新闻文章有单独的高亮句子	311,971	55.36	CNN Dailymail Dataset
cnn_dailymail.jsonl.gz	CNN Dailymail数据集的(高亮句子, 文章)，每个新闻文章的所有高亮句子作为一个文本	311,971	55.27	[CNN Dailymail Dataset](https://huggingface.co/datasets/cnn_d

5,000+

优质数据集

54 个

任务类型

进入经典数据集