SchemaQueryLab

Hugging Face2024-09-12 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/infinite-dataset-hub/SchemaQueryLab

下载链接

链接失效反馈

官方服务：

资源简介：

SchemaQueryLab数据集旨在支持机器学习模型的开发和训练，特别是那些专注于文本到SQL任务的模型。它包含一系列维基百科风格的文章内容，这些内容被格式化为结构化数据集，包括文本查询、SQL查询和相应的表模式。数据集中的每一行代表一个独特的示例，其中自然语言文本查询被转换为精确的SQL查询，遵循详细的表模式。查询主要集中在过滤、统计分析和聚合操作上，涉及科学、新闻、教程和技术等多个主题。数据集根据查询的复杂性和领域进行细分，这些标签作为分类查询的指南，增强了模型从不同主题和查询结构中泛化和学习的能力。

创建时间：

2024-09-12

原始信息汇总

SchemaQueryLab

数据集描述

SchemaQueryLab 数据集旨在支持机器学习模型的开发和训练，特别是专注于文本到SQL任务的模型。该数据集包含一系列维基百科风格的文章内容，这些内容被格式化为结构化数据集，包括文本查询、SQL查询和相应的表模式。每行数据代表一个独特的示例，其中自然语言文本查询被转换为精确的SQL查询，遵循详细的表模式。查询主要集中在过滤、统计分析和聚合操作上，涵盖科学、新闻、教程和技术等多个主题。

数据集根据查询的复杂性和领域进行细分，这些标签用于对查询进行分类，增强模型从不同主题和查询结构中泛化和学习的能力。

CSV内容预览

csv "text query","sql query","table schema","labels" "What is the total number of articles related to machine learning in the Science category?","SELECT COUNT() FROM Articles WHERE category = Science AND topic = Machine Learning;","category (string), topic (string), type (string), title (string), content (text)",["complex", "technology", "education"] "List all tutorials for the Python programming language.","SELECT title FROM Tutorials WHERE programming_language = Python;","title (string), programming_language (string), type (string), difficulty (string), category (string)",["education", "programming", "intermediate"] "How many news articles mention quantum computing?","SELECT COUNT() FROM News WHERE content LIKE %quantum computing%;","title (string), content (text), category (string)",["news", "technology", "advanced"] "Find the average number of views for tutorials on Data Science across all tutorials.","SELECT AVG(views) FROM Tutorials WHERE category = Data Science;","title (string), views (int), category (string), publication_date (date)",["data science", "education", "analytics"] "Retrieve the list of article titles that fall under Science and Machine Learning categories.","SELECT title FROM Articles WHERE category = Science AND topic = Machine Learning;","title (string), category (string), topic (string), content (text)",["machine learning", "science", "research"]

数据来源

该数据集由Infinite Dataset Hub和microsoft/Phi-3-mini-4k-instruct生成，使用查询text2sql dataset containing SQL schemas of text datasets as well as natural language text query and the actual SQL queries, specialized for text datasets used to train large language models, mostly SQL about filtering/stats/aggregates, the data consists of wikipedia-like articles, include columns "text query", "sql query", "table schema", data should be about various topics like science, news, tutorials, tech生成。

搜集汇总

数据集介绍

构建方式

SchemaQueryLab数据集通过Infinite Dataset Hub平台生成，结合microsoft/Phi-3-mini-4k-instruct模型，专门为文本到SQL任务设计。该数据集以维基百科风格的文章为基础，生成了包含自然语言文本查询、SQL查询以及对应表结构的结构化数据。每个数据条目代表一个独特的示例，展示了从自然语言到SQL查询的转换过程，涵盖了过滤、统计分析和聚合操作等多种查询类型。

特点

SchemaQueryLab数据集的特点在于其多样化的查询主题和复杂的查询结构。数据集涵盖了科学、新闻、教程和技术等多个领域，每个查询都附有详细的表结构和标签，便于模型学习和分类。查询的复杂性从基础到高级不等，能够有效支持模型在不同难度和主题上的泛化能力。此外，数据集通过标签系统对查询进行分类，进一步增强了模型对多样化查询结构的理解能力。

使用方法

SchemaQueryLab数据集主要用于训练和评估文本到SQL转换的机器学习模型。用户可以通过加载CSV文件，获取包含自然语言查询、SQL查询和表结构的数据。数据集的分段标签为模型训练提供了明确的分类依据，用户可以根据标签选择特定复杂度和领域的查询进行训练。此外，数据集还可用于测试模型在处理复杂查询和多样化主题时的表现，帮助开发者优化模型的泛化能力和准确性。

背景与挑战

背景概述

SchemaQueryLab数据集是为支持机器学习和自然语言处理领域中的文本到SQL任务而创建的。该数据集由Infinite Dataset Hub和微软的Phi-3-mini-4k-instruct模型生成，旨在通过提供结构化的文本查询、SQL查询及相应的表模式，帮助训练和优化文本到SQL的转换模型。数据集中的内容涵盖了科学、新闻、教程和技术等多个领域，查询类型包括过滤、统计分析和聚合操作。通过这种方式，SchemaQueryLab不仅为研究人员提供了一个丰富的训练资源，还推动了文本到SQL任务的技术进步。

当前挑战

SchemaQueryLab数据集在应用过程中面临多重挑战。首先，文本到SQL任务的复杂性要求模型能够准确理解自然语言查询并将其转换为精确的SQL语句，这对模型的语义理解和逻辑推理能力提出了较高要求。其次，数据集的构建依赖于AI生成的内容，可能存在数据准确性和真实性的问题，这可能会影响模型的训练效果。此外，数据集中查询的多样性和复杂性要求模型具备较强的泛化能力，以应对不同领域和查询结构的挑战。这些挑战共同构成了SchemaQueryLab数据集在实际应用中的主要难点。

常用场景

经典使用场景

SchemaQueryLab数据集在自然语言处理领域中被广泛用于训练和评估文本到SQL转换的机器学习模型。该数据集通过提供丰富的自然语言查询及其对应的SQL查询和表结构，帮助模型学习如何将复杂的自然语言问题转化为精确的数据库查询语句。其应用场景涵盖了从简单的数据检索到复杂的统计分析，适用于科学、技术、教育等多个领域。

衍生相关工作

基于SchemaQueryLab数据集，许多经典的研究工作得以展开。例如，研究人员开发了多种基于深度学习的文本到SQL模型，如Seq2SQL、SQLNet等。这些模型通过在该数据集上进行训练和测试，显著提升了自然语言查询到SQL语句的转换精度。此外，该数据集还催生了一系列针对复杂查询优化和跨领域泛化的研究，进一步推动了文本到SQL领域的发展。

数据集最近研究