query-to-dataset-viewer-descriptions

Hugging Face2024-09-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/davanstrien/query-to-dataset-viewer-descriptions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在训练模型，使其能够将用户查询映射到Hugging Face Hub上的相关数据集，而不依赖于数据集卡片。数据集包含合成生成的查询，这些查询模仿了用户对数据集的真实查询，例如'医疗QA数据集'或'金融情感分析数据集'。数据集有三种配置：'annotated'、'default'和'raw'。'default'配置被认为是最有用的，包含从Meta-Llama-3.1-405B模型生成的数据。'annotated'配置包含人工验证的响应，而'raw'配置包含来自各种模型的原始数据。数据集支持文本嵌入训练和ColBERT训练等任务，并有可能训练模型从数据集摘要生成查询。查询语言为英语，数据集包含'query'、'user-query.suggestion.agent'、'huggingface_id'和'dataset_view_representation'等特征。

创建时间：

2024-09-13

原始信息汇总

数据集概述

数据集摘要

该数据集包含为Hugging Face Hub上的数据集生成的合成查询，这些查询映射到数据集的API响应摘要。数据集的目标是训练句子转换器和ColBERT风格的模型，以在不依赖数据集卡片的情况下，将用户查询映射到数据集，即使用数据集本身的信息。

支持的任务和排行榜

该数据集支持以下任务：

文本嵌入训练
ColBERT训练

还可能训练一个从数据集摘要生成查询的模型。

数据集结构

配置

数据集有多个配置：

annotated: 包含人工验证的响应。
default: 包含从Meta-Llama-3.1-405B模型生成的数据。
raw: 包含从多种模型生成的原始数据。

特征

annotated 配置

id: 字符串
status: 字符串
_server_id: 字符串
description: 字符串
query: 字符串
viewer: 字符串
user_description.suggestion: 字符串
user_description.suggestion.score: null
user_description.suggestion.agent: 字符串
user-query.suggestion: 字符串
user-query.suggestion.score: null
user-query.suggestion.agent: 字符串
user-query.responses.users: 字符串序列
description_rating.responses.status: 字符串序列
user_description.responses.users: 字符串序列
user_description.responses.status: 字符串序列
description_rating.responses: 字符串序列
query_rating.responses.users: 字符串序列
user-query.responses.status: 字符串序列
query_rating.responses.status: 字符串序列
user_description.responses: 字符串序列
query_rating.responses: 字符串序列
description_rating.responses.users: 字符串序列
user-query.responses: 字符串序列

default 配置

query: 字符串
user-query.suggestion.agent: 字符串
huggingface_id: 字符串
dataset_view_representation: 字符串

raw 配置

id: 字符串
status: 字符串
_server_id: 字符串
description: 字符串
query: 字符串
viewer: 字符串
user_description.suggestion: 字符串
user_description.suggestion.score: null
user_description.suggestion.agent: 字符串
user-query.suggestion: 字符串
user-query.suggestion.score: null
user-query.suggestion.agent: 字符串
user-query.responses.users: 字符串序列
description_rating.responses.status: 字符串序列
user_description.responses.users: 字符串序列
user_description.responses.status: 字符串序列
description_rating.responses: 字符串序列
query_rating.responses.users: 字符串序列
user-query.responses.status: 字符串序列
query_rating.responses.status: 字符串序列
user_description.responses: 字符串序列
query_rating.responses: 字符串序列
description_rating.responses.users: 字符串序列
user-query.responses: 字符串序列

分割

annotated 配置

train: 4806个样本，4668733字节

default 配置

train: 1433个样本，13735478字节

raw 配置

train: 4806个样本，4668733字节

数据集创建

数据来源

数据是通过使用开放的大型语言模型（LLMs）合成生成的，最高质量的响应来自Meta-Llama-3.1-405B模型。

注释

有一个配置包含人工验证的响应。

个人和敏感信息

数据集可能包含来自数据集视图的个人数据，未尝试过滤这些信息。

其他已知限制

这是一种实验性方法，表示数据集的最佳方法可能与本数据集采用的方法不同。

搜集汇总

数据集介绍

构建方式

该数据集通过合成生成的方式构建，旨在将用户查询与Hugging Face Hub上的数据集进行映射。数据集的生成依赖于大型语言模型（如Meta-Llama-3.1-405B），模拟真实用户查询，如“医学问答数据集”或“金融情感分析数据集”。这些查询与数据集的视图API响应摘要相匹配，从而为模型训练提供数据支持。

特点

该数据集的特点在于其多样化的配置，包括默认配置、原始配置和注释配置。默认配置包含由Meta-Llama-3.1-405B模型生成的高质量查询，而注释配置则包含经过人工验证的响应。数据集的结构复杂，涵盖了查询、数据集ID、数据集视图表示等多个字段，能够为文本嵌入训练和ColBERT训练提供丰富的数据支持。

使用方法

该数据集主要用于训练句子嵌入模型和ColBERT模型，以帮助用户在不依赖数据集卡片的情况下，通过查询找到相关数据集。用户可以通过Hugging Face的`datasets`库加载数据集，并利用其提供的API进行数据探索和模型训练。此外，用户还可以参与Argilla任务，为数据集的注释配置贡献标注数据。

背景与挑战

背景概述

query-to-dataset-viewer-descriptions数据集由Daniel van Strien等人于2024年创建，旨在通过合成查询与Hugging Face Hub上的数据集视图API响应之间的映射，提升数据集的可发现性。该数据集的核心研究问题是如何在不依赖数据集卡片的情况下，利用数据集本身的信息，将用户查询与相关数据集进行匹配。通过使用大型语言模型（如Meta-Llama-3.1-405B）生成合成查询，并结合数据集视图API的响应，该数据集为训练句子嵌入模型（如Sentence Transformer和ColBERT）提供了基础。这一研究对自然语言处理领域的数据集检索任务具有重要影响，尤其是在Hugging Face Hub上超过20万个公开数据集的背景下，显著提升了数据集的搜索效率。

当前挑战

该数据集面临的主要挑战包括：1) 数据集检索任务的复杂性，即如何准确地将用户查询与数据集内容匹配，尤其是在数据集描述不完整或模糊的情况下；2) 数据集构建过程中，合成查询的质量控制问题，尽管使用了Meta-Llama-3.1-405B等高质量模型生成查询，但仍需人工验证以确保查询的合理性和实用性；3) 数据集视图API响应的多样性，如何选择最具代表性的数据集视图信息以支持模型训练，仍是一个开放性问题。此外，数据集可能包含敏感信息，如何在保证数据可用性的同时保护用户隐私，也是未来需要解决的挑战。

常用场景

经典使用场景

在自然语言处理领域，query-to-dataset-viewer-descriptions数据集被广泛用于训练句子嵌入模型和ColBERT模型，以将用户查询与Hugging Face Hub上的数据集进行匹配。通过使用数据集本身的视图信息而非数据集卡片，该数据集能够帮助模型更准确地理解用户意图，并推荐最相关的数据集。这种应用场景在数据集发现和推荐系统中尤为重要，尤其是在面对海量数据集时，能够显著提升搜索效率。

衍生相关工作

基于该数据集，许多经典工作得以衍生。例如，研究人员开发了基于句子嵌入的语义搜索模型，用于在Hugging Face Hub上进行高效的数据集推荐。此外，该数据集还启发了对数据集视图信息提取的研究，推动了如何从数据集中自动生成查询和描述的技术发展。这些工作不仅扩展了数据集的应用场景，还为未来的数据集发现和推荐系统提供了新的研究方向。

数据集最近研究