distilabel-internal-testing/alvarobartt-improving-text-embeddings-with-llms-full
收藏Hugging Face2024-06-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/distilabel-internal-testing/alvarobartt-improving-text-embeddings-with-llms-full
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置,每个配置都有不同的特征和任务,如文本匹配、文本分类、文本检索等。数据集的结构和加载方式也在文件中进行了说明。数据集通过distilabel工具生成,并提供了pipeline.yaml文件用于复现生成过程。
该数据集包含多个配置,每个配置都有不同的特征和任务,如文本匹配、文本分类、文本检索等。数据集的结构和加载方式也在文件中进行了说明。数据集通过distilabel工具生成,并提供了pipeline.yaml文件用于复现生成过程。
提供机构:
distilabel-internal-testing
原始信息汇总
数据集概述
本数据集包含多个配置,每个配置对应不同的数据集子集,具有特定的特征和结构。以下是各配置的详细信息:
配置:bitext_retrieval_generator_0
- 特征:
- S1: 字符串
- S2: 字符串
- S3: 字符串
- distilabel_metadata: 结构化数据,包含raw_output_bitext_retrieval_generator_0字段
- bitext_model: 字符串
- 数据大小:
- 训练集:1个样本,345字节
- 下载大小:4878字节
- 数据集大小:345字节
配置:generate_long_text_matching_data_0
- 特征:
- task: 字符串
- brainstorm_model: 字符串
- input: 字符串
- positive_document: 字符串
- distilabel_metadata: 结构化数据,包含raw_output_generate_long_text_matching_data_0字段
- generation_model: 字符串
- 数据大小:
- 训练集:20个样本,175495字节
- 下载大小:146808字节
- 数据集大小:175495字节
配置:generate_short_text_matching_data_0
- 特征:
- task: 字符串
- brainstorm_model: 字符串
- input: 字符串
- positive_document: 字符串
- distilabel_metadata: 结构化数据,包含raw_output_generate_short_text_matching_data_0字段
- generation_model: 字符串
- 数据大小:
- 训练集:19个样本,5732字节
- 下载大小:8173字节
- 数据集大小:5732字节
配置:generate_text_classification_data_0
- 特征:
- task: 字符串
- brainstorm_model: 字符串
- input_text: 字符串
- label: 字符串
- misleading_label: 字符串
- distilabel_metadata: 结构化数据,包含raw_output_generate_text_classification_data_0字段
- generation_model: 字符串
- 数据大小:
- 训练集:20个样本,19241字节
- 下载大小:23965字节
- 数据集大小:19241字节
配置:generate_text_matching_data_0
- 特征:
- task: 字符串
- brainstorm_model: 字符串
- input: 字符串
- positive_document: 字符串
- distilabel_metadata: 结构化数据,包含raw_output_generate_text_matching_data_0字段
- generation_model: 字符串
- 数据大小:
- 训练集:38个样本,12493字节
- 下载大小:12538字节
- 数据集大小:12493字节
配置:generate_text_matching_data_1
- 特征:
- task: 字符串
- brainstorm_model: 字符串
- input: 字符串
- positive_document: 字符串
- distilabel_metadata: 结构化数据,包含raw_output_generate_text_matching_data_1字段
- generation_model: 字符串
- 数据大小:
- 训练集:40个样本,235856字节
- 下载大小:182984字节
- 数据集大小:235856字节
配置:generate_text_retrieval_data_0
- 特征:
- task: 字符串
- brainstorm_model: 字符串
- user_query: 字符串
- positive_document: 字符串
- hard_negative_document: 字符串
- distilabel_metadata: 结构化数据,包含raw_output_generate_text_retrieval_data_0字段
- generation_model: 字符串
- 数据大小:
- 训练集:19个样本,137389字节
- 下载大小:110658字节
- 数据集大小:137389字节
配置:monolingual_triplet_generator_0
- 特征:
- S1: 字符串
- S2: 字符串
- S3: 字符串
- distilabel_metadata: 结构化数据,包含raw_output_monolingual_triplet_generator_0字段
- monolingual_model: 字符串
- 数据大小:
- 训练集:1个样本,845字节
- 下载大小:8414字节
- 数据集大小:845字节
数据集标签
- 合成数据
- distilabel
- rlaif



