five

SM3-Text-to-Query

收藏
arXiv2024-11-14 更新2024-11-19 收录
下载链接:
http://arxiv.org/abs/2411.05521v2
下载链接
链接失效反馈
官方服务:
资源简介:
SM3-Text-to-Query是一个基于合成患者数据的多模型医疗文本到查询基准数据集,由瑞士应用科学大学创建。该数据集包含10,000条自然语言问题与查询对,涵盖关系数据库(PostgreSQL)、文档存储(MongoDB)和图数据库(Neo4j和GraphDB),支持SQL、MQL、Cypher和SPARQL四种查询语言。数据集通过Synthea生成,遵循SNOMED-CT分类法,确保数据的标准化和隐私保护。该数据集旨在评估不同数据库模型和查询语言在文本到查询系统中的性能,适用于医疗领域的数据查询和分析任务。

SM3-Text-to-Query is a multi-model medical text-to-query benchmark dataset based on synthetic patient data, developed by the Swiss University of Applied Sciences. This dataset comprises 10,000 pairs of natural language questions and their corresponding queries, covering relational databases (PostgreSQL), document stores (MongoDB), and graph databases (Neo4j and GraphDB), and supports four query languages: SQL, MQL, Cypher, and SPARQL. Generated via Synthea and adhering to the SNOMED-CT classification system, the dataset ensures data standardization and privacy protection. It is intended to evaluate the performance of various database models and query languages in text-to-query systems, and is applicable to data query and analysis tasks in the medical field.
提供机构:
瑞士应用科学大学
创建时间:
2024-11-08
搜集汇总
数据集介绍
main_image_url
构建方式
SM3-Text-to-Query数据集的构建基于Synthea生成的合成患者数据,遵循SNOMED-CT分类法。数据集涵盖了四种数据库模型:关系型数据库(PostgreSQL)、文档存储(MongoDB)、图数据库(Neo4j和GraphDB),并支持四种查询语言:SQL、MQL、Cypher和SPARQL。通过系统化地手动开发408个模板问题,并利用参数化采样方法进行增强,最终构建了包含10,000个自然语言问题/查询对的多模型基准。
特点
SM3-Text-to-Query数据集的主要特点包括:基于国际医疗标准SNOMED-CT,确保数据集的广泛适用性和隐私保护;涵盖三种核心数据库模型和四种查询语言,提供跨模型和跨语言的评估能力;通过模板化方法生成问题,易于扩展和适应不同场景;支持对多种大语言模型(LLMs)的上下文学习(ICL)策略进行评估,揭示不同数据库模型和查询语言之间的权衡。
使用方法
SM3-Text-to-Query数据集适用于评估和开发多模型文本到查询系统。研究者和开发者可以使用该数据集来测试和比较不同LLMs在四种查询语言上的表现,探索数据库模型和查询语言对ICL策略的影响。此外,数据集的模板化生成方法使其易于扩展,可以引入新的查询语言或基于SNOMED-CT的真实患者数据库,进一步增强其应用价值。
背景与挑战
背景概述
随着医疗行业的数字化进程加速,电子健康记录(EHR)被存储在各种数据库系统中,这些系统基于不同的数据库模型,如关系数据库、文档存储或图数据库。这些不同的数据库模型对查询复杂性和性能有显著影响。尽管这在数据库研究中是一个已知的事实,但其对日益增长的文本到查询(Text-to-Query)系统的影响尚未得到充分探讨。为此,SM3-Text-to-Query数据集应运而生,这是首个基于合成患者数据的多元医疗文本到查询基准,遵循SNOMED-CT分类法,涵盖了医疗术语。该数据集提供了关系数据库(PostgreSQL)、文档存储(MongoDB)和图数据库(Neo4j和GraphDB)的数据表示,允许在四种流行的查询语言(SQL、MQL、Cypher和SPARQL)中进行评估。
当前挑战
SM3-Text-to-Query数据集面临的挑战包括解决领域问题(如图像分类)的复杂性,以及在构建过程中遇到的挑战。具体挑战包括:1) 跨多个核心数据库模型和查询语言的文本到查询系统的评估;2) 从合成患者数据生成过程中确保数据的标准化和隐私保护;3) 在不同数据库模型和查询语言之间实现高效的查询转换和性能优化;4) 处理不同查询语言的语法和语义差异,确保查询的准确性和一致性。此外,数据集的扩展性和适应性也是一个重要挑战,需要能够轻松地添加新的查询语言或基于标准的真实患者数据库。
常用场景
经典使用场景
SM3-Text-to-Query数据集的经典使用场景在于评估和比较不同数据库模型和查询语言在自然语言到查询转换系统中的性能。该数据集通过提供基于合成患者数据的多种数据库表示(如PostgreSQL、MongoDB、Neo4j和GraphDB),允许研究者在SQL、MQL、Cypher和SPARQL四种查询语言中进行跨模型的性能评估。这种多模型的评估框架为研究者提供了一个全面的平台,以探索和优化自然语言到查询系统的转换策略。
衍生相关工作
SM3-Text-to-Query数据集的发布催生了一系列相关研究工作。例如,研究者们基于该数据集开发了新的自然语言到查询转换模型,并提出了改进的评估方法。此外,该数据集还激发了对多模型数据库系统在自然语言查询中的深入研究,推动了跨数据库模型和查询语言的统一查询接口的开发。这些衍生工作不仅扩展了数据集的应用范围,还为自然语言查询技术的发展提供了新的思路和方法。
数据集最近研究
最新研究方向
在电子健康记录(EHR)领域,SM3-Text-to-Query数据集的最新研究方向主要集中在多模型数据库系统中的自然语言查询生成。该数据集通过合成患者数据,涵盖了关系数据库(如PostgreSQL)、文档存储(如MongoDB)和图数据库(如Neo4j和GraphDB)等多种数据库模型,并支持SQL、MQL、Cypher和SPARQL等多种查询语言。研究者们正在探索如何利用大型语言模型(LLMs)在不同数据库模型和查询语言之间进行高效的查询转换,以提升医疗领域中自然语言查询系统的性能和灵活性。此外,研究还关注于如何通过标准化的医疗术语(如SNOMED-CT)来增强数据集的可扩展性和实际应用价值。
相关研究论文
  • 1
    SM3-Text-to-Query: Synthetic Multi-Model Medical Text-to-Query Benchmark瑞士应用科学大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作