five

distilabel-internal-testing/embeddings-dataset-semantically-similar

收藏
Hugging Face2024-06-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/distilabel-internal-testing/embeddings-dataset-semantically-similar
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含一个`pipeline.yaml`文件,可用于在distilabel中复现生成数据集的流程。数据集的结构包括一个名为default的配置示例,展示了数据的JSON格式和加载方法。数据示例包含anchor、distilabel_metadata、model_name、negative和positive字段,分别表示锚点文本、元数据、模型名称、负面文本和正面文本。

该数据集包含一个`pipeline.yaml`文件,可用于在distilabel中复现生成数据集的流程。数据集的结构包括一个名为default的配置示例,展示了数据的JSON格式和加载方法。数据示例包含anchor、distilabel_metadata、model_name、negative和positive字段,分别表示锚点文本、元数据、模型名称、负面文本和正面文本。
提供机构:
distilabel-internal-testing
原始信息汇总

数据集概述

数据集基本信息

  • 名称: embeddings-dataset-paraphrase
  • 创建工具: distilabel
  • 大小分类: 小于1000条记录
  • 标签:
    • synthetic
    • distilabel
    • rlaif

数据集结构

  • 配置: 默认
  • 数据示例结构: json { "anchor": "Astrology: I am a Capricorn Sun Cap moon and cap rising...what does that say about me?", "distilabel_metadata": { "raw_output_paraphrase": "## Positive

With a triple Capricorn influence, youre likely a driven and ambitious individual with a strong sense of discipline and responsibility.

Negative

The cap on my pen is always getting lost, and its really frustrating when I need to sign important documents." }, "model_name": "meta-llama/Meta-Llama-3-70B-Instruct", "negative": "The cap on my pen is always getting lost, and its really frustrating when I need to sign important documents.", "positive": "With a triple Capricorn influence, youre likely a driven and ambitious individual with a strong sense of discipline and responsibility." }

数据集加载

  • 加载方式: python from datasets import load_dataset

    ds = load_dataset("distilabel-internal-testing/embeddings-dataset-paraphrase", "default")

    或简化为: python from datasets import load_dataset

    ds = load_dataset("distilabel-internal-testing/embeddings-dataset-paraphrase")

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作