alvarobartt/improving-text-embeddings-with-llms

Name: alvarobartt/improving-text-embeddings-with-llms
Creator: alvarobartt
Published: 2024-02-02 15:34:51
License: 暂无描述

Hugging Face2024-02-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/alvarobartt/improving-text-embeddings-with-llms

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: task-completion features: - name: task dtype: string - name: model dtype: string - name: prompt dtype: string - name: input_text dtype: string - name: label dtype: string - name: misleading_label dtype: string splits: - name: train num_bytes: 162689 num_examples: 100 download_size: 56187 dataset_size: 162689 - config_name: task-generation features: - name: input dtype: string - name: model dtype: string - name: task dtype: string splits: - name: train num_bytes: 47821 num_examples: 100 download_size: 8178 dataset_size: 47821 configs: - config_name: task-completion data_files: - split: train path: task-completion/train-* - config_name: task-generation data_files: - split: train path: task-generation/train-* license: mit language: - en tags: - synthetic - distilabel pretty_name: Improving Text Embeddings with Large Language Models size_categories: - n<1K --- # 🦒 Improving Text Embeddings with Large Language Models ![](https://raw.githubusercontent.com/argilla-io/distilabel/main/docs/assets/distilabel-badge-light.png) Replication of [Improving Text Embeddings with Large Language Models](https://arxiv.org/abs/2401.00368).

提供机构：

alvarobartt

原始信息汇总

数据集概述

数据集配置

task-completion
- 特征:
  - task: 字符串
  - model: 字符串
  - prompt: 字符串
  - input_text: 字符串
  - label: 字符串
  - misleading_label: 字符串
- 分割:
  - train:
    - 字节数: 162689
    - 样本数: 100
- 下载大小: 56187 字节
- 数据集大小: 162689 字节
- 数据文件:
  - train: task-completion/train-*
task-generation
- 特征:
  - input: 字符串
  - model: 字符串
  - task: 字符串
- 分割:
  - train:
    - 字节数: 47821
    - 样本数: 100
- 下载大小: 8178 字节
- 数据集大小: 47821 字节
- 数据文件:
  - train: task-generation/train-*

其他信息

许可证: MIT
语言: 英语
标签: 合成, distilabel
易读名称: Improving Text Embeddings with Large Language Models
大小类别: n<1K

5,000+

优质数据集

54 个

任务类型

进入经典数据集