five

query-to-dataset-viewer-descriptions

收藏
Hugging Face2024-09-18 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/davanstrien/query-to-dataset-viewer-descriptions
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集旨在训练模型,使其能够将用户查询映射到Hugging Face Hub上的相关数据集,而不依赖于数据集卡片。数据集包含合成生成的查询,这些查询模仿了用户对数据集的真实查询,例如'医疗QA数据集'或'金融情感分析数据集'。数据集有三种配置:'annotated'、'default'和'raw'。'default'配置被认为是最有用的,包含从Meta-Llama-3.1-405B模型生成的数据。'annotated'配置包含人工验证的响应,而'raw'配置包含来自各种模型的原始数据。数据集支持文本嵌入训练和ColBERT训练等任务,并有可能训练模型从数据集摘要生成查询。查询语言为英语,数据集包含'query'、'user-query.suggestion.agent'、'huggingface_id'和'dataset_view_representation'等特征。
创建时间:
2024-09-13
原始信息汇总

数据集概述

数据集摘要

该数据集包含为Hugging Face Hub上的数据集生成的合成查询,这些查询映射到数据集的API响应摘要。数据集的目标是训练句子转换器和ColBERT风格的模型,以在不依赖数据集卡片的情况下,将用户查询映射到数据集,即使用数据集本身的信息。

支持的任务和排行榜

该数据集支持以下任务:

  • 文本嵌入训练
  • ColBERT训练

还可能训练一个从数据集摘要生成查询的模型。

数据集结构

配置

数据集有多个配置:

  • annotated: 包含人工验证的响应。
  • default: 包含从Meta-Llama-3.1-405B模型生成的数据。
  • raw: 包含从多种模型生成的原始数据。

特征

annotated 配置

  • id: 字符串
  • status: 字符串
  • _server_id: 字符串
  • description: 字符串
  • query: 字符串
  • viewer: 字符串
  • user_description.suggestion: 字符串
  • user_description.suggestion.score: null
  • user_description.suggestion.agent: 字符串
  • user-query.suggestion: 字符串
  • user-query.suggestion.score: null
  • user-query.suggestion.agent: 字符串
  • user-query.responses.users: 字符串序列
  • description_rating.responses.status: 字符串序列
  • user_description.responses.users: 字符串序列
  • user_description.responses.status: 字符串序列
  • description_rating.responses: 字符串序列
  • query_rating.responses.users: 字符串序列
  • user-query.responses.status: 字符串序列
  • query_rating.responses.status: 字符串序列
  • user_description.responses: 字符串序列
  • query_rating.responses: 字符串序列
  • description_rating.responses.users: 字符串序列
  • user-query.responses: 字符串序列

default 配置

  • query: 字符串
  • user-query.suggestion.agent: 字符串
  • huggingface_id: 字符串
  • dataset_view_representation: 字符串

raw 配置

  • id: 字符串
  • status: 字符串
  • _server_id: 字符串
  • description: 字符串
  • query: 字符串
  • viewer: 字符串
  • user_description.suggestion: 字符串
  • user_description.suggestion.score: null
  • user_description.suggestion.agent: 字符串
  • user-query.suggestion: 字符串
  • user-query.suggestion.score: null
  • user-query.suggestion.agent: 字符串
  • user-query.responses.users: 字符串序列
  • description_rating.responses.status: 字符串序列
  • user_description.responses.users: 字符串序列
  • user_description.responses.status: 字符串序列
  • description_rating.responses: 字符串序列
  • query_rating.responses.users: 字符串序列
  • user-query.responses.status: 字符串序列
  • query_rating.responses.status: 字符串序列
  • user_description.responses: 字符串序列
  • query_rating.responses: 字符串序列
  • description_rating.responses.users: 字符串序列
  • user-query.responses: 字符串序列

分割

annotated 配置

  • train: 4806个样本,4668733字节

default 配置

  • train: 1433个样本,13735478字节

raw 配置

  • train: 4806个样本,4668733字节

数据集创建

数据来源

数据是通过使用开放的大型语言模型(LLMs)合成生成的,最高质量的响应来自Meta-Llama-3.1-405B模型。

注释

有一个配置包含人工验证的响应。

个人和敏感信息

数据集可能包含来自数据集视图的个人数据,未尝试过滤这些信息。

其他已知限制

这是一种实验性方法,表示数据集的最佳方法可能与本数据集采用的方法不同。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过合成生成的方式构建,旨在将用户查询与Hugging Face Hub上的数据集进行映射。数据集的生成依赖于大型语言模型(如Meta-Llama-3.1-405B),模拟真实用户查询,如“医学问答数据集”或“金融情感分析数据集”。这些查询与数据集的视图API响应摘要相匹配,从而为模型训练提供数据支持。
特点
该数据集的特点在于其多样化的配置,包括默认配置、原始配置和注释配置。默认配置包含由Meta-Llama-3.1-405B模型生成的高质量查询,而注释配置则包含经过人工验证的响应。数据集的结构复杂,涵盖了查询、数据集ID、数据集视图表示等多个字段,能够为文本嵌入训练和ColBERT训练提供丰富的数据支持。
使用方法
该数据集主要用于训练句子嵌入模型和ColBERT模型,以帮助用户在不依赖数据集卡片的情况下,通过查询找到相关数据集。用户可以通过Hugging Face的`datasets`库加载数据集,并利用其提供的API进行数据探索和模型训练。此外,用户还可以参与Argilla任务,为数据集的注释配置贡献标注数据。
背景与挑战
背景概述
query-to-dataset-viewer-descriptions数据集由Daniel van Strien等人于2024年创建,旨在通过合成查询与Hugging Face Hub上的数据集视图API响应之间的映射,提升数据集的可发现性。该数据集的核心研究问题是如何在不依赖数据集卡片的情况下,利用数据集本身的信息,将用户查询与相关数据集进行匹配。通过使用大型语言模型(如Meta-Llama-3.1-405B)生成合成查询,并结合数据集视图API的响应,该数据集为训练句子嵌入模型(如Sentence Transformer和ColBERT)提供了基础。这一研究对自然语言处理领域的数据集检索任务具有重要影响,尤其是在Hugging Face Hub上超过20万个公开数据集的背景下,显著提升了数据集的搜索效率。
当前挑战
该数据集面临的主要挑战包括:1) 数据集检索任务的复杂性,即如何准确地将用户查询与数据集内容匹配,尤其是在数据集描述不完整或模糊的情况下;2) 数据集构建过程中,合成查询的质量控制问题,尽管使用了Meta-Llama-3.1-405B等高质量模型生成查询,但仍需人工验证以确保查询的合理性和实用性;3) 数据集视图API响应的多样性,如何选择最具代表性的数据集视图信息以支持模型训练,仍是一个开放性问题。此外,数据集可能包含敏感信息,如何在保证数据可用性的同时保护用户隐私,也是未来需要解决的挑战。
常用场景
经典使用场景
在自然语言处理领域,query-to-dataset-viewer-descriptions数据集被广泛用于训练句子嵌入模型和ColBERT模型,以将用户查询与Hugging Face Hub上的数据集进行匹配。通过使用数据集本身的视图信息而非数据集卡片,该数据集能够帮助模型更准确地理解用户意图,并推荐最相关的数据集。这种应用场景在数据集发现和推荐系统中尤为重要,尤其是在面对海量数据集时,能够显著提升搜索效率。
衍生相关工作
基于该数据集,许多经典工作得以衍生。例如,研究人员开发了基于句子嵌入的语义搜索模型,用于在Hugging Face Hub上进行高效的数据集推荐。此外,该数据集还启发了对数据集视图信息提取的研究,推动了如何从数据集中自动生成查询和描述的技术发展。这些工作不仅扩展了数据集的应用场景,还为未来的数据集发现和推荐系统提供了新的研究方向。
数据集最近研究
最新研究方向
在自然语言处理领域,query-to-dataset-viewer-descriptions数据集为数据集发现和检索提供了新的研究方向。该数据集通过将用户查询与Hugging Face Hub上的数据集视图API响应进行映射,旨在训练句子嵌入模型(如Sentence Transformer和ColBERT),从而在不依赖数据集卡片的情况下,直接利用数据集本身的信息进行检索。这一研究方向不仅提升了数据集的可发现性,还为大规模数据集的高效检索提供了新的解决方案。随着Hugging Face Hub上数据集数量的快速增长,如何从海量数据集中精准定位目标数据集成为研究热点。该数据集的生成基于Meta-Llama-3.1-405B等大型语言模型,并通过人工标注进一步优化,为文本嵌入训练和查询生成任务提供了高质量的数据支持。这一研究方向的进展将对数据集检索系统的性能提升和用户体验优化产生深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作