five

sentence-transformers/embedding-training-data

收藏
Hugging Face2024-09-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/embedding-training-data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于训练文本嵌入模型的训练文件,支持多种数据格式,如Pairs、Triplets、Sets、Query-Pairs和Query-Triplets。数据集列表包括来自Google自动建议、Yahoo Answers、MS MARCO、StackExchange、ELI5、SQuAD、WikiHow、Amazon、Natural Questions、S2ORC、Quora、WikiAnswers、SearchQA、AG News、SNLI、MultiNLI、SPECTER、SimpleWiki、PAQ、altlex、CC News、CodeSearchNet、Sentence-Compression、TriviaQA、CNN Dailymail、Flickr30k、XSUM和COCO等多个来源的数据。每个数据集都有详细的描述、大小、性能指标和参考来源。
提供机构:
sentence-transformers
原始信息汇总

文本嵌入模型训练数据集

本仓库包含用于训练文本嵌入模型的训练文件,例如使用sentence-transformers

数据格式

所有文件均为jsonl.gz格式:每行包含一个代表一个训练示例的JSON对象。

JSON对象可以有不同的格式:

  • Pairs: ["text1", "text2"] - 这是一个在向量空间中应该接近的正样本对。
  • Triplets: ["anchor", "positive", "negative"] - 这是一个三元组:positive文本应接近anchor,而negative文本应远离anchor
  • Sets: {"set": ["text1", "text2", ...]} - 一组描述同一事物的文本,例如同一问题的不同释义,同一图像的不同标题。任何元素的组合都被视为正样本对。
  • Query-Pairs: {"query": "text", "pos": ["text1", "text2", ...]} - 一个查询和一组正样本文本。可以通过从pos中随机选择一个文本来形成对["query", "positive"]
  • Query-Triplets: {"query": "text", "pos": ["text1", "text2", ...], "neg": ["text1", "text2", ...]} - 一个查询和一组正样本文本及负样本文本。可以通过从posneg中随机选择文本来形成三元组["query", "positive", "negative"]

可用数据集

数据集 描述 大小(行数) 性能 参考
gooaq_pairs.jsonl.gz Google自动建议的(问题, 答案)对 3,012,496 59.06 GooAQ
yahoo_answers_title_answer.jsonl.gz Yahoo Answers的(标题, 答案)对 1,198,260 58.65 Yahoo Answers
msmarco-triplets.jsonl.gz MS MARCO Passages数据集的(问题, 答案, 负样本)三元组 499,184 58.76 MS MARCO Passages
stackexchange_duplicate_questions_title_title.jsonl.gz StackExchange的重复问题(标题, 标题)对 304,525 58.47 Stack Exchange Data API
eli5_question_answer.jsonl.gz ELI5数据集的(问题, 答案)对 325,475 58.24 ELI5
yahoo_answers_title_question.jsonl.gz Yahoo Answers的(标题, 问题正文)对 659,896 58.05 Yahoo Answers
squad_pairs.jsonl.gz SQuAD数据集的(问题, 答案段落)对 87,599 58.02 SQuAD
yahoo_answers_question_answer.jsonl.gz Yahoo Answers的(问题正文, 答案)对 681,164 57.74 Yahoo Answers
wikihow.jsonl.gz WikiHow的(摘要, 文本)对 128,542 57.67 WikiHow
amazon_review_2018.jsonl.gz Amazon的(标题, 评论)对 87,877,725 57.65 Amazon review data (2018)
NQ-train_pairs.jsonl.gz NQ数据集的训练对(查询, 答案段落) 100,231 57.48 Natural Questions
amazon-qa.jsonl.gz Amazon的(问题, 答案)对 1,095,290 57.48 AmazonQA
S2ORC_title_abstract.jsonl.gz 科学论文的(标题, 摘要)对 41,769,185 57.39 S2ORC
quora_duplicates.jsonl.gz Quora的重复问题对 103,663 57.36 QQP
WikiAnswers.jsonl.gz 重复问题集 27,383,151 57.34 WikiAnswers Corpus
searchQA_top5_snippets.jsonl.gz SearchQA数据集的问题 + Top5文本片段 117,220 57.34 search_qa
stackexchange_duplicate_questions_title-body_title-body.jsonl.gz StackExchange的重复问题(标题+正文, 标题+正文)对 250,460 57.30 Stack Exchange Data API
S2ORC_citations_titles.jsonl.gz 引文网络(论文标题) 51,030,086 57.28 S2ORC
stackexchange_duplicate_questions_body_body.jsonl.gz StackExchange的重复问题(正文, 正文)对 250,519 57.26 Stack Exchange Data API
agnews.jsonl.gz AG News数据集的新闻文章(标题, 描述)对 1,157,745 57.25 AG news corpus
quora_duplicates_triplets.jsonl.gz Quora的重复问题对,带有额外的硬负样本(通过交叉编码器挖掘和去噪) 101,762 56.97 QQP
AllNLI.jsonl.gz SNLI + MultiNLI三元组:(锚点, 蕴含文本, 矛盾文本) 277,230 56.57 SNLI and MNLI
npr.jsonl.gz npr.org网站的(标题, 正文)对 594,384 56.44 Pushshift
specter_train_triples.jsonl.gz Specter的科学出版物三元组(标题, 相关标题, 硬负样本) 684,100 56.32 SPECTER
SimpleWiki.jsonl.gz 匹配对(英语维基百科, 简单英语维基百科) 102,225 56.15 SimpleWiki
PAQ_pairs.jsonl.gz PAQ数据集的训练对(查询, 答案段落) 64,371,441 56.11 PAQ
altlex.jsonl.gz 匹配对(英语维基百科, 简单英语维基百科) 112,696 55.95 altlex
ccnews_title_text.jsonl.gz CC News数据集的(标题, 文章)对 614,664 55.84 CC-News
codesearchnet.jsonl.gz CodeSearchNet语料库是GitHub上托管的开源库的(注释, 代码)对。它包含多种编程语言的代码和文档。 1,151,414 55.80 CodeSearchNet
S2ORC_citations_abstracts.jsonl.gz 引文网络(论文摘要) 39,567,485 55.74 S2ORC
sentence-compression.jsonl.gz 句子压缩的(长文本, 短文本)对 180,000 55.63 Sentence-Compression
TriviaQA_pairs.jsonl.gz TriviaQA数据集的(查询, 答案)对 73,346 55.56 TriviaQA
cnn_dailymail_splitted.jsonl.gz CNN Dailymail数据集的(文章, 高亮句子),每个新闻文章有单独的高亮句子 311,971 55.36 CNN Dailymail Dataset
cnn_dailymail.jsonl.gz CNN Dailymail数据集的(高亮句子, 文章),每个新闻文章的所有高亮句子作为一个文本 311,971 55.27 [CNN Dailymail Dataset](https://huggingface.co/datasets/cnn_d
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作