five

distilabel-internal-testing/alvarobartt-improving-text-embeddings-with-llms-full

收藏
Hugging Face2024-06-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/distilabel-internal-testing/alvarobartt-improving-text-embeddings-with-llms-full
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,每个配置都有不同的特征和任务,如文本匹配、文本分类、文本检索等。数据集的结构和加载方式也在文件中进行了说明。数据集通过distilabel工具生成,并提供了pipeline.yaml文件用于复现生成过程。

该数据集包含多个配置,每个配置都有不同的特征和任务,如文本匹配、文本分类、文本检索等。数据集的结构和加载方式也在文件中进行了说明。数据集通过distilabel工具生成,并提供了pipeline.yaml文件用于复现生成过程。
提供机构:
distilabel-internal-testing
原始信息汇总

数据集概述

本数据集包含多个配置,每个配置对应不同的数据集子集,具有特定的特征和结构。以下是各配置的详细信息:

配置:bitext_retrieval_generator_0

  • 特征:
    • S1: 字符串
    • S2: 字符串
    • S3: 字符串
    • distilabel_metadata: 结构化数据,包含raw_output_bitext_retrieval_generator_0字段
    • bitext_model: 字符串
  • 数据大小:
    • 训练集:1个样本,345字节
    • 下载大小:4878字节
    • 数据集大小:345字节

配置:generate_long_text_matching_data_0

  • 特征:
    • task: 字符串
    • brainstorm_model: 字符串
    • input: 字符串
    • positive_document: 字符串
    • distilabel_metadata: 结构化数据,包含raw_output_generate_long_text_matching_data_0字段
    • generation_model: 字符串
  • 数据大小:
    • 训练集:20个样本,175495字节
    • 下载大小:146808字节
    • 数据集大小:175495字节

配置:generate_short_text_matching_data_0

  • 特征:
    • task: 字符串
    • brainstorm_model: 字符串
    • input: 字符串
    • positive_document: 字符串
    • distilabel_metadata: 结构化数据,包含raw_output_generate_short_text_matching_data_0字段
    • generation_model: 字符串
  • 数据大小:
    • 训练集:19个样本,5732字节
    • 下载大小:8173字节
    • 数据集大小:5732字节

配置:generate_text_classification_data_0

  • 特征:
    • task: 字符串
    • brainstorm_model: 字符串
    • input_text: 字符串
    • label: 字符串
    • misleading_label: 字符串
    • distilabel_metadata: 结构化数据,包含raw_output_generate_text_classification_data_0字段
    • generation_model: 字符串
  • 数据大小:
    • 训练集:20个样本,19241字节
    • 下载大小:23965字节
    • 数据集大小:19241字节

配置:generate_text_matching_data_0

  • 特征:
    • task: 字符串
    • brainstorm_model: 字符串
    • input: 字符串
    • positive_document: 字符串
    • distilabel_metadata: 结构化数据,包含raw_output_generate_text_matching_data_0字段
    • generation_model: 字符串
  • 数据大小:
    • 训练集:38个样本,12493字节
    • 下载大小:12538字节
    • 数据集大小:12493字节

配置:generate_text_matching_data_1

  • 特征:
    • task: 字符串
    • brainstorm_model: 字符串
    • input: 字符串
    • positive_document: 字符串
    • distilabel_metadata: 结构化数据,包含raw_output_generate_text_matching_data_1字段
    • generation_model: 字符串
  • 数据大小:
    • 训练集:40个样本,235856字节
    • 下载大小:182984字节
    • 数据集大小:235856字节

配置:generate_text_retrieval_data_0

  • 特征:
    • task: 字符串
    • brainstorm_model: 字符串
    • user_query: 字符串
    • positive_document: 字符串
    • hard_negative_document: 字符串
    • distilabel_metadata: 结构化数据,包含raw_output_generate_text_retrieval_data_0字段
    • generation_model: 字符串
  • 数据大小:
    • 训练集:19个样本,137389字节
    • 下载大小:110658字节
    • 数据集大小:137389字节

配置:monolingual_triplet_generator_0

  • 特征:
    • S1: 字符串
    • S2: 字符串
    • S3: 字符串
    • distilabel_metadata: 结构化数据,包含raw_output_monolingual_triplet_generator_0字段
    • monolingual_model: 字符串
  • 数据大小:
    • 训练集:1个样本,845字节
    • 下载大小:8414字节
    • 数据集大小:845字节

数据集标签

  • 合成数据
  • distilabel
  • rlaif
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作