SM3-Text-to-Query

Name: SM3-Text-to-Query
Creator: 瑞士应用科学大学
Published: 2024-11-14 17:28:49
License: 暂无描述

arXiv2024-11-14 更新2024-11-19 收录

下载链接：

http://arxiv.org/abs/2411.05521v2

下载链接

链接失效反馈

官方服务：

资源简介：

SM3-Text-to-Query是一个基于合成患者数据的多模型医疗文本到查询基准数据集，由瑞士应用科学大学创建。该数据集包含10,000条自然语言问题与查询对，涵盖关系数据库（PostgreSQL）、文档存储（MongoDB）和图数据库（Neo4j和GraphDB），支持SQL、MQL、Cypher和SPARQL四种查询语言。数据集通过Synthea生成，遵循SNOMED-CT分类法，确保数据的标准化和隐私保护。该数据集旨在评估不同数据库模型和查询语言在文本到查询系统中的性能，适用于医疗领域的数据查询和分析任务。

SM3-Text-to-Query is a multi-model medical text-to-query benchmark dataset based on synthetic patient data, developed by the Swiss University of Applied Sciences. This dataset comprises 10,000 pairs of natural language questions and their corresponding queries, covering relational databases (PostgreSQL), document stores (MongoDB), and graph databases (Neo4j and GraphDB), and supports four query languages: SQL, MQL, Cypher, and SPARQL. Generated via Synthea and adhering to the SNOMED-CT classification system, the dataset ensures data standardization and privacy protection. It is intended to evaluate the performance of various database models and query languages in text-to-query systems, and is applicable to data query and analysis tasks in the medical field.

提供机构：

瑞士应用科学大学

创建时间：

2024-11-08

搜集汇总

数据集介绍

构建方式

SM3-Text-to-Query数据集的构建基于Synthea生成的合成患者数据，遵循SNOMED-CT分类法。数据集涵盖了四种数据库模型：关系型数据库（PostgreSQL）、文档存储（MongoDB）、图数据库（Neo4j和GraphDB），并支持四种查询语言：SQL、MQL、Cypher和SPARQL。通过系统化地手动开发408个模板问题，并利用参数化采样方法进行增强，最终构建了包含10,000个自然语言问题/查询对的多模型基准。

特点

SM3-Text-to-Query数据集的主要特点包括：基于国际医疗标准SNOMED-CT，确保数据集的广泛适用性和隐私保护；涵盖三种核心数据库模型和四种查询语言，提供跨模型和跨语言的评估能力；通过模板化方法生成问题，易于扩展和适应不同场景；支持对多种大语言模型（LLMs）的上下文学习（ICL）策略进行评估，揭示不同数据库模型和查询语言之间的权衡。

使用方法

SM3-Text-to-Query数据集适用于评估和开发多模型文本到查询系统。研究者和开发者可以使用该数据集来测试和比较不同LLMs在四种查询语言上的表现，探索数据库模型和查询语言对ICL策略的影响。此外，数据集的模板化生成方法使其易于扩展，可以引入新的查询语言或基于SNOMED-CT的真实患者数据库，进一步增强其应用价值。

背景与挑战

背景概述

随着医疗行业的数字化进程加速，电子健康记录（EHR）被存储在各种数据库系统中，这些系统基于不同的数据库模型，如关系数据库、文档存储或图数据库。这些不同的数据库模型对查询复杂性和性能有显著影响。尽管这在数据库研究中是一个已知的事实，但其对日益增长的文本到查询（Text-to-Query）系统的影响尚未得到充分探讨。为此，SM3-Text-to-Query数据集应运而生，这是首个基于合成患者数据的多元医疗文本到查询基准，遵循SNOMED-CT分类法，涵盖了医疗术语。该数据集提供了关系数据库（PostgreSQL）、文档存储（MongoDB）和图数据库（Neo4j和GraphDB）的数据表示，允许在四种流行的查询语言（SQL、MQL、Cypher和SPARQL）中进行评估。

当前挑战

SM3-Text-to-Query数据集面临的挑战包括解决领域问题（如图像分类）的复杂性，以及在构建过程中遇到的挑战。具体挑战包括：1) 跨多个核心数据库模型和查询语言的文本到查询系统的评估；2) 从合成患者数据生成过程中确保数据的标准化和隐私保护；3) 在不同数据库模型和查询语言之间实现高效的查询转换和性能优化；4) 处理不同查询语言的语法和语义差异，确保查询的准确性和一致性。此外，数据集的扩展性和适应性也是一个重要挑战，需要能够轻松地添加新的查询语言或基于标准的真实患者数据库。

常用场景

经典使用场景

SM3-Text-to-Query数据集的经典使用场景在于评估和比较不同数据库模型和查询语言在自然语言到查询转换系统中的性能。该数据集通过提供基于合成患者数据的多种数据库表示（如PostgreSQL、MongoDB、Neo4j和GraphDB），允许研究者在SQL、MQL、Cypher和SPARQL四种查询语言中进行跨模型的性能评估。这种多模型的评估框架为研究者提供了一个全面的平台，以探索和优化自然语言到查询系统的转换策略。

衍生相关工作

SM3-Text-to-Query数据集的发布催生了一系列相关研究工作。例如，研究者们基于该数据集开发了新的自然语言到查询转换模型，并提出了改进的评估方法。此外，该数据集还激发了对多模型数据库系统在自然语言查询中的深入研究，推动了跨数据库模型和查询语言的统一查询接口的开发。这些衍生工作不仅扩展了数据集的应用范围，还为自然语言查询技术的发展提供了新的思路和方法。

数据集最近研究