vietdata/contrastive-sentences

Name: vietdata/contrastive-sentences
Creator: vietdata
Published: 2024-06-29 17:24:31
License: 暂无描述

Hugging Face2024-06-29 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/vietdata/contrastive-sentences

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于训练语言模型嵌入的查询、正面和负面示例。每个示例包括一个查询字符串（query）、一个正面响应字符串（positive）和一个负面响应字符串（negative），以及一个标识数据集来源的字符串（dataset）。数据集被分割为训练集（train），包含682,010个示例，总大小为1,339,906,636字节。

This dataset contains queries, positive, and negative examples for training language model embeddings. Each example includes a query string (query), a positive response string (positive), and a negative response string (negative), along with a string identifying the dataset source (dataset). The dataset is split into a training set (train) containing 682,010 examples, with a total size of 1,339,906,636 bytes.

提供机构：

vietdata

原始信息汇总

数据集概述

数据集信息

特征

query: 数据类型为字符串。
positive: 数据类型为字符串。
negative: 数据类型为字符串。
dataset: 数据类型为字符串。

数据分割

train: 包含682010个样本，总字节数为1339906636。

数据集大小

下载大小: 798343851字节
数据集大小: 1339906636字节

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

引用

@article{springer2024repetition, title={Repetition Improves Language Model Embeddings}, author={Springer, Jacob Mitchell and Kotha, Suhas and Fried, Daniel and Neubig, Graham and Raghunathan, Aditi}, journal={arXiv preprint arXiv:2402.15449}, year={2024} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集