SM3-Text-to-Query

github2024-12-07 更新2024-12-13 收录

下载链接：

https://github.com/jf87/SM3-Text-to-Query

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个查询语言（包括SQL、SPARQL、MQL和Cypher）的文本到查询映射示例，并包含问题类型和类别信息。

This dataset contains text-to-query mapping examples across multiple query languages, including SQL, SPARQL, MQL, and Cypher, along with question type and category information.

创建时间：

2024-11-13

原始信息汇总

SM3-Text-to-Query 数据集概述

数据集简介

SM3-Text-to-Query 是一个合成多模型医学文本到查询的基准数据集，包含多种查询语言（如 SQL、SPARQL、MQL 和 Cypher）的文本到查询映射示例。数据集还包括问题类型和类别信息。

数据内容

模板问题：包含在 ./data 目录中。
Synthea 数据：包含在 ./data 目录中。
训练和开发数据：包含在 ./data 目录中。
文本到查询结果：包含在 ./data 目录中，涵盖了所有数据库的评估结果。

数据格式

数据集以 CSV 文件形式提供，包含以下字段：

question：自然语言问题。
sql：SQL 查询。
sparql：SPARQL 查询。
mql：MQL 查询。
cypher：Cypher 查询。
question_type：问题的类型。
class：查询或问题的类别。

引用

如果使用该数据集，请引用以下内容：

@misc{sivasubramaniam2024sm3texttoquerysyntheticmultimodelmedical, title={SM3-Text-to-Query: Synthetic Multi-Model Medical Text-to-Query Benchmark}, author={Sithursan Sivasubramaniam and Cedric Osei-Akoto and Yi Zhang and Kurt Stockinger and Jonathan Fuerst}, year={2024}, eprint={2411.05521}, archivePrefix={arXiv}, primaryClass={cs.DB}, url={https://arxiv.org/abs/2411.05521}, }

搜集汇总

数据集介绍

构建方式

SM3-Text-to-Query数据集的构建基于合成多模型医学文本到查询的基准，通过整合Synthea数据和模板问题，生成了涵盖SQL、SPARQL、MQL和Cypher等多种查询语言的映射数据。该数据集的构建过程不仅考虑了不同查询语言的差异，还结合了自然语言问题与数据库查询的对应关系，确保了数据的多维度和多样性。

使用方法

使用该数据集时，用户可以通过访问GitHub仓库获取数据和代码，数据集的训练和验证数据以CSV格式存储，便于直接导入和处理。代码部分提供了复现实验结果的脚本，用户可以根据需要调整参数和模型设置。此外，数据集的元数据信息详细描述了各字段的含义和数据来源，便于用户理解和应用。

背景与挑战

背景概述

SM3-Text-to-Query数据集是由Sithursan Sivasubramaniam、Cedric Osei-Akoto、Yi Zhang、Kurt Stockinger和Jonathan Fürst等研究人员创建的，旨在解决多模态医学文本到查询的转换问题。该数据集的核心研究问题是如何将自然语言问题准确地映射到多种查询语言（如SQL、SPARQL、MQL和Cypher），以支持医学领域的数据检索和分析。该数据集的创建时间为2024年，预计在NeurIPS 2024会议上展示，其研究成果对医学信息检索和自然语言处理领域具有重要影响。

当前挑战

SM3-Text-to-Query数据集面临的挑战主要包括：首先，如何确保自然语言问题能够准确且一致地转换为多种查询语言，尤其是在医学领域，语义复杂性和专业术语的使用增加了转换的难度。其次，构建过程中需要处理不同数据库系统之间的差异，确保生成的查询在不同系统中具有相同的语义和功能。此外，数据集的多样性和覆盖范围也是一个挑战，需要涵盖广泛的医学场景和问题类型，以提高模型的泛化能力。

常用场景

经典使用场景

在医疗信息处理领域，SM3-Text-to-Query数据集的经典使用场景主要集中在自然语言处理与数据库查询的交叉应用中。该数据集通过提供多种查询语言（如SQL、SPARQL、MQL和Cypher）的映射示例，帮助研究人员和开发者训练模型，使其能够将自然语言问题准确转换为相应的数据库查询语句。这一过程在医疗数据分析、患者信息检索等场景中具有重要意义，能够显著提升医疗信息系统的智能化水平。

解决学术问题

SM3-Text-to-Query数据集解决了自然语言处理与数据库查询之间的语义鸿沟问题，特别是在多模态医疗数据处理中。通过提供多种查询语言的映射示例，该数据集为研究者提供了一个标准化的基准，用于评估和改进自然语言到查询语句的转换模型。这不仅推动了医疗信息系统的智能化发展，还为跨语言、跨数据库系统的查询一致性研究提供了宝贵的数据支持，具有重要的学术价值。

实际应用

在实际应用中，SM3-Text-to-Query数据集可广泛应用于医疗信息系统的智能化升级。例如，在医院信息系统中，医生可以通过自然语言输入查询患者的历史记录或特定医疗数据，系统则能够自动将其转换为相应的数据库查询语句，从而快速获取所需信息。此外，该数据集还可用于开发智能问诊系统，帮助患者通过自然语言描述症状，系统自动生成相应的查询语句以检索可能的诊断结果，提升医疗服务的效率和准确性。

数据集最近研究