five

exoplanets-sql

收藏
Hugging Face2024-10-11 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/dpv/exoplanets-sql
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个基于Kaggle上NASA外行星数据集的小型数据集,用于将文本转换为SQL查询。数据集包含一个SQLite表'exoplanets'和一个'reference_planets'表,后者插入了Jupiter和Earth的质量数据。数据集的目的是通过'results'列评估模型生成的查询是否与参考查询等效。数据集分为训练集和验证集,分别包含50个和10个样本。
创建时间:
2024-10-02
原始信息汇总

数据集概述

基本信息

  • 数据集名称: dpv/exoplanets-sql
  • 标签:
    • exoplanets
    • sql
    • astronomy
    • machine-learning
    • dataset
  • 许可证: MIT

数据集描述

  • 来源: 基于Kaggle上的NASA外行星数据集
  • 数据库表:
    • exoplanets: 从数据集中创建的SQLite表。
    • reference_planets: 包含(name, mass)值的参考表,例如(Jupiter, 1.898e27)和(Earth, 5.972e24)。
  • 字段关联:
    • exoplanets表中的mass_wrt列映射到reference_planets表中的mass列,允许进行涉及连接的复杂查询。
  • 查询验证:
    • 查询已通过逻辑一致性检查,并通过在数据库上运行以确保查询可执行且返回结果不为空。
    • results列用于评估模型生成的查询结果,以检查生成的查询是否等同于参考查询。
搜集汇总
数据集介绍
main_image_url
构建方式
exoplanets-sql数据集基于Kaggle上的NASA系外行星数据构建,通过将原始数据转换为SQLite数据库中的两个表:*exoplanets*和*reference_planets*。其中,*reference_planets*表包含了地球和木星的质量信息,而*exoplanets*表中的*mass_wrt*列与*reference_planets*表的*mass*列相关联,支持更复杂的联合查询。所有查询均经过逻辑一致性检查,并确保执行后返回非空结果。
特点
该数据集的特点在于其专注于系外行星研究领域,提供了结构化的SQL查询环境。通过引入*reference_planets*表,数据集支持对行星质量的相对比较,增强了查询的灵活性和复杂性。此外,数据集还包含*results*列,用于评估模型生成的查询与参考查询的等价性,为机器学习模型的训练和验证提供了便利。
使用方法
使用exoplanets-sql数据集时,用户可以通过SQL查询语言对系外行星数据进行探索和分析。数据集特别适用于训练和评估文本到SQL转换的机器学习模型。用户可以通过比较模型生成的查询结果与参考查询结果,验证模型的准确性和逻辑一致性。此外,数据集还可用于天文学研究,支持对系外行星质量、轨道等属性的深入分析。
背景与挑战
背景概述
Exoplanets-SQL数据集是一个专注于天文学领域的小型数据集,旨在通过SQL查询技术探索系外行星的相关数据。该数据集基于NASA的系外行星数据,由研究人员在2023年创建,主要贡献者包括Aditya Mishra等。数据集的核心研究问题是通过文本到SQL的转换,提升天文学数据查询的自动化水平,从而为天文学研究提供更高效的数据分析工具。该数据集不仅包含系外行星的基本信息,还引入了参考行星表(如木星和地球),以支持更复杂的查询操作。这一数据集的出现,为天文学与机器学习交叉领域的研究提供了新的数据支持,推动了相关领域的技术发展。
当前挑战
Exoplanets-SQL数据集在解决天文学数据查询自动化问题时面临多重挑战。首先,文本到SQL的转换需要模型具备对天文学领域知识的深刻理解,以确保生成的查询语句在逻辑上准确且语义完整。其次,数据集的构建过程中,研究人员需确保数据的一致性和查询结果的可靠性,这涉及到对大量数据的清洗和验证。此外,由于天文学数据的复杂性和多样性,如何设计合理的查询逻辑以支持多表连接和复杂条件查询,也是一个亟待解决的技术难题。这些挑战不仅考验了数据集的构建质量,也对后续的模型训练和评估提出了更高的要求。
常用场景
经典使用场景
在系外行星研究领域,exoplanets-sql数据集为天文学家和数据科学家提供了一个独特的工具,用于探索和查询系外行星的物理特性。通过SQL查询,研究人员可以高效地检索和分析行星的质量、轨道周期等关键参数,从而揭示行星系统的结构和演化规律。
衍生相关工作
基于exoplanets-sql数据集,许多经典研究工作得以展开。例如,研究人员开发了基于深度学习的文本到SQL转换模型,显著提升了查询生成的准确性和效率。此外,该数据集还促进了天文数据与其他领域(如机器学习、自然语言处理)的交叉研究,推动了多学科融合的创新应用。
数据集最近研究
最新研究方向
近年来,随着天文学与机器学习技术的深度融合,exoplanets-sql数据集在系外行星研究领域展现出独特的价值。该数据集通过将NASA系外行星数据转化为SQL格式,为研究者提供了便捷的数据查询与分析工具。其核心创新在于引入了*reference_planets*表,并通过*mass_wrt*列实现复杂查询的关联分析,为系外行星质量比较研究提供了新的视角。当前,该数据集在自然语言转SQL(Text-to-SQL)任务中备受关注,尤其是在天文领域的智能问答系统与自动化数据分析中,展现了广泛的应用潜力。其逻辑一致性验证机制与结果评估功能,进一步推动了天文数据与机器学习模型的协同发展,为系外行星探索与天体物理研究提供了重要的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作