distilabel-internal-testing/alvarobartt-improving-text-embeddings-with-llms-full

Name: distilabel-internal-testing/alvarobartt-improving-text-embeddings-with-llms-full
Creator: distilabel-internal-testing
Published: 2024-06-05 10:38:33
License: 暂无描述

Hugging Face2024-06-05 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/distilabel-internal-testing/alvarobartt-improving-text-embeddings-with-llms-full

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，每个配置都有不同的特征和任务，如文本匹配、文本分类、文本检索等。数据集的结构和加载方式也在文件中进行了说明。数据集通过distilabel工具生成，并提供了pipeline.yaml文件用于复现生成过程。

提供机构：

distilabel-internal-testing

原始信息汇总

数据集概述

本数据集包含多个配置，每个配置对应不同的数据集子集，具有特定的特征和结构。以下是各配置的详细信息：

配置：bitext_retrieval_generator_0

特征:
- S1: 字符串
- S2: 字符串
- S3: 字符串
- distilabel_metadata: 结构化数据，包含raw_output_bitext_retrieval_generator_0字段
- bitext_model: 字符串
数据大小:
- 训练集：1个样本，345字节
- 下载大小：4878字节
- 数据集大小：345字节

配置：generate_long_text_matching_data_0

特征:
- task: 字符串
- brainstorm_model: 字符串
- input: 字符串
- positive_document: 字符串
- distilabel_metadata: 结构化数据，包含raw_output_generate_long_text_matching_data_0字段
- generation_model: 字符串
数据大小:
- 训练集：20个样本，175495字节
- 下载大小：146808字节
- 数据集大小：175495字节

配置：generate_short_text_matching_data_0

特征:
- task: 字符串
- brainstorm_model: 字符串
- input: 字符串
- positive_document: 字符串
- distilabel_metadata: 结构化数据，包含raw_output_generate_short_text_matching_data_0字段
- generation_model: 字符串
数据大小:
- 训练集：19个样本，5732字节
- 下载大小：8173字节
- 数据集大小：5732字节

配置：generate_text_classification_data_0

特征:
- task: 字符串
- brainstorm_model: 字符串
- input_text: 字符串
- label: 字符串
- misleading_label: 字符串
- distilabel_metadata: 结构化数据，包含raw_output_generate_text_classification_data_0字段
- generation_model: 字符串
数据大小:
- 训练集：20个样本，19241字节
- 下载大小：23965字节
- 数据集大小：19241字节

配置：generate_text_matching_data_0

特征:
- task: 字符串
- brainstorm_model: 字符串
- input: 字符串
- positive_document: 字符串
- distilabel_metadata: 结构化数据，包含raw_output_generate_text_matching_data_0字段
- generation_model: 字符串
数据大小:
- 训练集：38个样本，12493字节
- 下载大小：12538字节
- 数据集大小：12493字节

配置：generate_text_matching_data_1

特征:
- task: 字符串
- brainstorm_model: 字符串
- input: 字符串
- positive_document: 字符串
- distilabel_metadata: 结构化数据，包含raw_output_generate_text_matching_data_1字段
- generation_model: 字符串
数据大小:
- 训练集：40个样本，235856字节
- 下载大小：182984字节
- 数据集大小：235856字节

配置：generate_text_retrieval_data_0

特征:
- task: 字符串
- brainstorm_model: 字符串
- user_query: 字符串
- positive_document: 字符串
- hard_negative_document: 字符串
- distilabel_metadata: 结构化数据，包含raw_output_generate_text_retrieval_data_0字段
- generation_model: 字符串
数据大小:
- 训练集：19个样本，137389字节
- 下载大小：110658字节
- 数据集大小：137389字节

配置：monolingual_triplet_generator_0

特征:
- S1: 字符串
- S2: 字符串
- S3: 字符串
- distilabel_metadata: 结构化数据，包含raw_output_monolingual_triplet_generator_0字段
- monolingual_model: 字符串
数据大小:
- 训练集：1个样本，845字节
- 下载大小：8414字节
- 数据集大小：845字节

数据集标签

合成数据
distilabel
rlaif

5,000+

优质数据集

54 个

任务类型

进入经典数据集