sentence-transformers/embedding-training-data
收藏Hugging Face2024-09-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/embedding-training-data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于训练文本嵌入模型的训练文件,支持多种数据格式,如Pairs、Triplets、Sets、Query-Pairs和Query-Triplets。数据集列表包括来自Google自动建议、Yahoo Answers、MS MARCO、StackExchange、ELI5、SQuAD、WikiHow、Amazon、Natural Questions、S2ORC、Quora、WikiAnswers、SearchQA、AG News、SNLI、MultiNLI、SPECTER、SimpleWiki、PAQ、altlex、CC News、CodeSearchNet、Sentence-Compression、TriviaQA、CNN Dailymail、Flickr30k、XSUM和COCO等多个来源的数据。每个数据集都有详细的描述、大小、性能指标和参考来源。
提供机构:
sentence-transformers
原始信息汇总
文本嵌入模型训练数据集
本仓库包含用于训练文本嵌入模型的训练文件,例如使用sentence-transformers。
数据格式
所有文件均为jsonl.gz格式:每行包含一个代表一个训练示例的JSON对象。
JSON对象可以有不同的格式:
- Pairs:
["text1", "text2"]- 这是一个在向量空间中应该接近的正样本对。 - Triplets:
["anchor", "positive", "negative"]- 这是一个三元组:positive文本应接近anchor,而negative文本应远离anchor。 - Sets:
{"set": ["text1", "text2", ...]}- 一组描述同一事物的文本,例如同一问题的不同释义,同一图像的不同标题。任何元素的组合都被视为正样本对。 - Query-Pairs:
{"query": "text", "pos": ["text1", "text2", ...]}- 一个查询和一组正样本文本。可以通过从pos中随机选择一个文本来形成对["query", "positive"]。 - Query-Triplets:
{"query": "text", "pos": ["text1", "text2", ...], "neg": ["text1", "text2", ...]}- 一个查询和一组正样本文本及负样本文本。可以通过从pos和neg中随机选择文本来形成三元组["query", "positive", "negative"]。
可用数据集
| 数据集 | 描述 | 大小(行数) | 性能 | 参考 |
|---|---|---|---|---|
| gooaq_pairs.jsonl.gz | Google自动建议的(问题, 答案)对 | 3,012,496 | 59.06 | GooAQ |
| yahoo_answers_title_answer.jsonl.gz | Yahoo Answers的(标题, 答案)对 | 1,198,260 | 58.65 | Yahoo Answers |
| msmarco-triplets.jsonl.gz | MS MARCO Passages数据集的(问题, 答案, 负样本)三元组 | 499,184 | 58.76 | MS MARCO Passages |
| stackexchange_duplicate_questions_title_title.jsonl.gz | StackExchange的重复问题(标题, 标题)对 | 304,525 | 58.47 | Stack Exchange Data API |
| eli5_question_answer.jsonl.gz | ELI5数据集的(问题, 答案)对 | 325,475 | 58.24 | ELI5 |
| yahoo_answers_title_question.jsonl.gz | Yahoo Answers的(标题, 问题正文)对 | 659,896 | 58.05 | Yahoo Answers |
| squad_pairs.jsonl.gz | SQuAD数据集的(问题, 答案段落)对 | 87,599 | 58.02 | SQuAD |
| yahoo_answers_question_answer.jsonl.gz | Yahoo Answers的(问题正文, 答案)对 | 681,164 | 57.74 | Yahoo Answers |
| wikihow.jsonl.gz | WikiHow的(摘要, 文本)对 | 128,542 | 57.67 | WikiHow |
| amazon_review_2018.jsonl.gz | Amazon的(标题, 评论)对 | 87,877,725 | 57.65 | Amazon review data (2018) |
| NQ-train_pairs.jsonl.gz | NQ数据集的训练对(查询, 答案段落) | 100,231 | 57.48 | Natural Questions |
| amazon-qa.jsonl.gz | Amazon的(问题, 答案)对 | 1,095,290 | 57.48 | AmazonQA |
| S2ORC_title_abstract.jsonl.gz | 科学论文的(标题, 摘要)对 | 41,769,185 | 57.39 | S2ORC |
| quora_duplicates.jsonl.gz | Quora的重复问题对 | 103,663 | 57.36 | QQP |
| WikiAnswers.jsonl.gz | 重复问题集 | 27,383,151 | 57.34 | WikiAnswers Corpus |
| searchQA_top5_snippets.jsonl.gz | SearchQA数据集的问题 + Top5文本片段 | 117,220 | 57.34 | search_qa |
| stackexchange_duplicate_questions_title-body_title-body.jsonl.gz | StackExchange的重复问题(标题+正文, 标题+正文)对 | 250,460 | 57.30 | Stack Exchange Data API |
| S2ORC_citations_titles.jsonl.gz | 引文网络(论文标题) | 51,030,086 | 57.28 | S2ORC |
| stackexchange_duplicate_questions_body_body.jsonl.gz | StackExchange的重复问题(正文, 正文)对 | 250,519 | 57.26 | Stack Exchange Data API |
| agnews.jsonl.gz | AG News数据集的新闻文章(标题, 描述)对 | 1,157,745 | 57.25 | AG news corpus |
| quora_duplicates_triplets.jsonl.gz | Quora的重复问题对,带有额外的硬负样本(通过交叉编码器挖掘和去噪) | 101,762 | 56.97 | QQP |
| AllNLI.jsonl.gz | SNLI + MultiNLI三元组:(锚点, 蕴含文本, 矛盾文本) | 277,230 | 56.57 | SNLI and MNLI |
| npr.jsonl.gz | npr.org网站的(标题, 正文)对 | 594,384 | 56.44 | Pushshift |
| specter_train_triples.jsonl.gz | Specter的科学出版物三元组(标题, 相关标题, 硬负样本) | 684,100 | 56.32 | SPECTER |
| SimpleWiki.jsonl.gz | 匹配对(英语维基百科, 简单英语维基百科) | 102,225 | 56.15 | SimpleWiki |
| PAQ_pairs.jsonl.gz | PAQ数据集的训练对(查询, 答案段落) | 64,371,441 | 56.11 | PAQ |
| altlex.jsonl.gz | 匹配对(英语维基百科, 简单英语维基百科) | 112,696 | 55.95 | altlex |
| ccnews_title_text.jsonl.gz | CC News数据集的(标题, 文章)对 | 614,664 | 55.84 | CC-News |
| codesearchnet.jsonl.gz | CodeSearchNet语料库是GitHub上托管的开源库的(注释, 代码)对。它包含多种编程语言的代码和文档。 | 1,151,414 | 55.80 | CodeSearchNet |
| S2ORC_citations_abstracts.jsonl.gz | 引文网络(论文摘要) | 39,567,485 | 55.74 | S2ORC |
| sentence-compression.jsonl.gz | 句子压缩的(长文本, 短文本)对 | 180,000 | 55.63 | Sentence-Compression |
| TriviaQA_pairs.jsonl.gz | TriviaQA数据集的(查询, 答案)对 | 73,346 | 55.56 | TriviaQA |
| cnn_dailymail_splitted.jsonl.gz | CNN Dailymail数据集的(文章, 高亮句子),每个新闻文章有单独的高亮句子 | 311,971 | 55.36 | CNN Dailymail Dataset |
| cnn_dailymail.jsonl.gz | CNN Dailymail数据集的(高亮句子, 文章),每个新闻文章的所有高亮句子作为一个文本 | 311,971 | 55.27 | [CNN Dailymail Dataset](https://huggingface.co/datasets/cnn_d |



