five

nataliaElv/similarity-qa-with-vectors

收藏
Hugging Face2023-11-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nataliaElv/similarity-qa-with-vectors
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集similarity-qa-with-vectors使用Argilla创建,并与HuggingFace的`datasets`库兼容。它包括Argilla的配置文件、数据集记录和注释指南。数据集结构包含字段、问题、建议、元数据、向量和指南。字段包括文本输入和输出,问题设计用于注释者评分和解释记录的质量,向量是可选的浮点数列,具有预定义的维度。根据其配置,该数据集可用于各种NLP任务。
提供机构:
nataliaElv
原始信息汇总

数据集卡片 for similarity-qa-with-vectors

数据集描述

  • 数据集概述
    • 该数据集包含一个符合Argilla数据集格式的配置文件argilla.yaml,用于在使用FeedbackDataset.from_huggingface方法时配置数据集。
    • 数据集记录采用与HuggingFace datasets兼容的格式,可以通过datasets库的load_dataset方法独立加载。
    • 包含用于构建和整理数据集的标注指南(如果已在Argilla中定义)。

加载数据集

使用Argilla加载

python import argilla as rg

ds = rg.FeedbackDataset.from_huggingface("nataliaElv/similarity-qa-with-vectors")

使用datasets库加载

python from datasets import load_dataset

ds = load_dataset("nataliaElv/similarity-qa-with-vectors")

支持的任务和排行榜

  • 该数据集可以包含多个字段、问题和响应,因此可以用于不同的NLP任务,具体取决于配置。
  • 数据集结构在数据集结构部分中描述。
  • 没有与该数据集关联的排行榜。

数据集结构

数据在Argilla中的结构

  • 字段(Fields)

    • 数据集记录本身,目前仅支持文本字段。这些字段将用于提供对问题的响应。
    • 示例字段包括:
      • instruction(指令):文本类型,必需
      • input(输入):文本类型,非必需
      • output(输出):文本类型,必需
  • 问题(Questions)

    • 向标注者提出的问题。问题类型包括评分、文本、标签选择、多标签选择或排序。
    • 示例问题包括:
      • quality(记录质量评分):评分类型,必需,值为[1, 2, 3, 4, 5]
      • explanation(评分解释):文本类型,必需
  • 建议(Suggestions)

    • 人类或机器生成的推荐,用于辅助标注者在标注过程中的选择。
  • 元数据(Metadata)

    • 提供关于数据集记录的额外信息,如原始来源链接或记录的作者、日期和来源。
  • 向量(Vectors)

    • 包含浮点数的不同列,维度由数据集配置文件中的vectors_settings预定义。
    • 示例向量包括:
      • input(输入):维度为[1, 384]
      • instruction(指令):维度为[1, 384]
      • output(输出):维度为[1, 384]
      • testing(测试):维度为[1, 1]
  • 指南(Guidelines)

    • 提供给标注者的指令,可选。

数据实例

一个数据集实例在Argilla中的示例如下:

json { "external_id": null, "fields": { "input": "", "instruction": "Give three tips for staying healthy.", "output": "1. Eat a balanced diet and make sure to include plenty of fruits and vegetables. 2. Exercise regularly to keep your body active and strong. 3. Get enough sleep and maintain a consistent sleep schedule." }, "metadata": { "text_length": 241 }, "responses": [], "suggestions": [], "vectors": { "input": [ -0.025378959253430367, -0.005421411711722612, -0.005123426206409931, -0.015000881627202034, -0.010828345082700253, 0.011933867819607258, 0.019314972683787346, 0.040846794843673706, -0.009248972870409489, 0.015658004209399223, 0.0018413026118651032, -0.04884575679898262, 0.007001905702054501, 0.03489101678133011, 0.035010259598493576, 0.004000979475677013, 0.03179853782057762, 0.013713518157601357, -0.01575734093785286, 0.016500428318977356, 0.02162296697497368, -0.019962908700108528, 0.011788141913712025, -0.018135597929358482, 0.00479349447414279, 0.027265621349215508, -0.00592863280326128, -0.00819356832653284, -0.04846194013953209, -0.19176225364208221, -0.033277515321969986, -0.013714526779949665, 0.0032154761720448732, -0.009890320710837841, -0.010387021116912365, -0.009758984670042992, -0.01616772636771202, 0.013864913955330849, -0.010939724743366241, 0.04058735817670822, 0.021671248599886894, 0.01383791770786047, -0.01536033395677805, -0.010618588887155056, 0.005697894841432571, -0.02265983633697033, -0.016780417412519455, -0.006693877745419741, 0.05799293890595436, -0.006326382048428059, 0.002093177754431963, 0.010354680009186268, 0.0006329257157631218, 0.027090711519122124, 0.004488569684326649, 0.014552658423781395, 0.0180455781519413, 0.019452394917607307, 0.02411177195608616, 0.008954178541898727, 0.0015302742831408978, 0.029447568580508232, -0.16580072045326233, 0.02812054567039013, 0.009662247262895107, 0.009475956670939922, 0.013372445479035378, -0.016405431553721428, -0.001572685199789703, 0.051213230937719345, 0.003518211655318737, 0.015949634835124016, -0.0069265239872038364, 0.027317708358168602, 0.019327018409967422, -0.022707704454660416, 0.028689151629805565, -0.01890380308032036, -0.01167482603341341, 0.011035646311938763, 0.0040340544655919075, -0.012239952571690083, -0.006184910889714956, -0.005307812709361315, -0.03035779856145382, -0.041286271065473557, 0.010543900541961193, 0.014870839193463326, 0.00642419932410121, 0.01750650443136692, -0.024431902915239334, -0.0055658514611423016, 0.02791532501578331, 0.007770954631268978, -0.06280053406953812, -0.011230005882680416, 0.022709796205163002, 0.0036207374650985003, -0.032403528690338135, 0.7040055990219116, -0.018570110201835632, 0.00400574691593647, 0.03399886190891266, -0.049098845571279526, 0.0239898469299078, -0.01194965373724699, -0.018013538792729378, -0.012237226590514183, -0.008749520406126976, 0.0011163142044097185, 0.025379084050655365, -0.009777436032891273, 0.04108814150094986, -0.005716001149266958, 0.006996306125074625, 0.01101826224476099, 0.043749451637268066, 0.025922292843461037, -0.006995497737079859, -0.031284742057323456, -0.03961759805679321, 0.024092240259051323, -0.0037946782540529966, -0.016933923587203026, 0.009725619107484818, -0.09440258890390396, 0.008375165052711964, 0.04419294372200966, 0.01720806583762169, 0.025360679253935814, 0.024841418489813805, -0.037821535021066666, -0.002577421488240361, -0.008712586015462875, 0.007797832600772381, -0.0038116704672574997, 0.019269822165369987, -0.0267858728766441

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作