SM3-Text-to-Query

Name: SM3-Text-to-Query
Creator: 苏黎世应用科技大学
Published: 2024-11-08 20:27:13
License: 暂无描述

arXiv2024-11-08 更新2024-11-12 收录

下载链接：

https://github.com/jf87/SM3-Text-to-Query

下载链接

链接失效反馈

官方服务：

资源简介：

SM3-Text-to-Query是一个基于合成患者数据的多模型医疗文本到查询基准数据集，由苏黎世应用科技大学创建。该数据集包含10,000条自然语言问题与查询对，涵盖关系数据库（PostgreSQL）、文档存储（MongoDB）和图数据库（Neo4j和GraphDB）四种查询语言（SQL、MQL、Cypher和SPARQL）。数据集通过Synthea生成，遵循SNOMED-CT分类法，确保数据的标准化和隐私保护。创建过程包括系统化的问题模板开发和数据增强，旨在评估不同数据库模型和查询语言在文本到查询系统中的性能，适用于医疗领域的数据查询和分析。

SM3-Text-to-Query is a multi-model medical text-to-query benchmark dataset based on synthetic patient data, developed by Zurich University of Applied Sciences. This dataset comprises 10,000 natural language question-query pairs, supporting four query languages (SQL, MQL, Cypher and SPARQL) across four database categories: relational databases (PostgreSQL), document stores (MongoDB), and graph databases (Neo4j and GraphDB). The dataset is generated using Synthea and adheres to the SNOMED-CT taxonomy to ensure data standardization and privacy protection. Its development process includes systematic question template design and data augmentation, aiming to evaluate the performance of various database models and query languages in text-to-query systems, and is suitable for medical domain data query and analysis.

提供机构：

苏黎世应用科技大学

创建时间：

2024-11-08

搜集汇总

数据集介绍

构建方式

SM3-Text-to-Query数据集的构建基于Synthea生成的合成患者数据，遵循SNOMED-CT分类法。该数据集涵盖了四种数据库模型：关系型数据库（PostgreSQL）、文档存储（MongoDB）、图数据库（Neo4j和GraphDB），并支持四种查询语言：SQL、MQL、Cypher和SPARQL。通过系统化地手动开发408个模板问题，并利用参数化采样方法扩充，最终构建了包含10,000个自然语言问题/查询对的基准数据集。

特点

SM3-Text-to-Query数据集的主要特点包括：基于标准化的合成患者数据，确保隐私保护和数据质量；支持多模型和多查询语言的评估，涵盖了当前流行的数据库系统；问题生成方法可扩展，便于未来添加新的模板或接入真实患者数据库；数据集设计考虑了不同数据库模型的查询复杂性和性能差异，为研究提供了丰富的实验场景。

使用方法

使用SM3-Text-to-Query数据集时，研究人员和开发者可以评估和比较不同数据库模型和查询语言在自然语言到查询转换任务中的表现。数据集提供了详细的文档和代码，支持用户进行数据预处理、模型训练和性能评估。此外，数据集的可扩展性允许用户根据需求添加新的问题模板或接入实际应用中的患者数据库，从而推动相关领域的研究和应用发展。

背景与挑战

背景概述

随着医疗行业的数字化进程，电子健康记录（EHR）存储在各种数据库系统中，这些系统基于不同的数据库模型，如关系数据库、文档存储或图数据库。这些不同的数据库模型对查询复杂性和性能有显著影响。尽管数据库研究领域对此已有认识，但其对日益增长的文本到查询系统的影响尚未得到充分探讨。为此，苏黎世应用科学大学的研究人员创建了SM3-Text-to-Query数据集，这是首个基于合成患者数据的多元医疗文本到查询基准，遵循SNOMED-CT分类法。该数据集提供了关系数据库（PostgreSQL）、文档存储（MongoDB）和图数据库（Neo4j和GraphDB）的数据表示，允许在四种流行的查询语言（SQL、MQL、Cypher和SPARQL）中进行评估。

当前挑战

SM3-Text-to-Query数据集面临的挑战包括：1) 解决领域问题的复杂性，如图像分类中的挑战；2) 构建过程中遇到的挑战，如处理不同数据库模型的数据转换和查询语言的多样性。此外，该数据集需要克服不同数据库模型和查询语言之间的兼容性问题，以及确保查询的准确性和效率。通过系统地开发和手动创建408个模板问题，并将其扩展为10,000个多样化的自然语言问题/查询对，研究人员旨在评估不同上下文学习（ICL）策略和大型语言模型（LLMs）在多模型环境中的表现。

常用场景

经典使用场景

SM3-Text-to-Query数据集在医疗领域中被广泛用于评估和优化自然语言到查询的转换系统。该数据集通过提供跨多种数据库模型（如关系型、文档型和图型数据库）和查询语言（如SQL、MQL、Cypher和SPARQL）的基准测试，帮助研究人员和开发者理解和比较不同模型和语言在处理医疗数据查询时的性能和复杂性。

衍生相关工作

SM3-Text-to-Query数据集的发布催生了一系列相关的经典工作，包括对不同数据库模型和查询语言的深入分析、自然语言到查询转换算法的改进，以及跨模型和语言的查询性能优化研究。此外，该数据集还促进了多模态医疗数据查询系统的开发，推动了医疗数据的标准化和互操作性研究，为未来的医疗数据管理和分析奠定了基础。

数据集最近研究