data-harmonization-benchmark

Name: data-harmonization-benchmark
Creator: 纽约大学
Published: 2024-12-11 16:35:56
License: 暂无描述

arXiv2024-12-11 更新2024-12-13 收录

下载链接：

https://github.com/VIDA-NYU/data-harmonization-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

data-harmonization-benchmark是由纽约大学与生物医学领域专家合作开发的新基准数据集，主要用于模式匹配任务。该数据集包含真实的生物医学数据，旨在解决数据集成和分析中的复杂模式匹配问题。数据集的创建过程结合了小语言模型（SLMs）和大语言模型（LLMs）的优势，通过生成多样化的训练数据和有效的提示策略来提升匹配精度。该数据集的应用领域主要集中在生物医学数据集成，旨在解决数据异构性和模式匹配中的挑战。

The data-harmonization-benchmark is a novel benchmark dataset co-developed by New York University and biomedical domain experts, primarily designed for pattern matching tasks. This dataset contains real-world biomedical data, aiming to address complex pattern matching challenges in data integration and analysis. The development of this dataset leverages the strengths of both Small Language Models (SLMs) and Large Language Models (LLMs), enhancing matching accuracy by generating diverse training data and employing effective prompting strategies. Its application scenarios primarily focus on biomedical data integration, with the core goal of resolving challenges associated with data heterogeneity and pattern matching.

提供机构：

纽约大学

创建时间：

2024-12-11

原始信息汇总

Data Harmonization Benchmark 数据集概述

数据集描述

Data Harmonization Benchmark 是一个用于评估数据协调方法（包括模式匹配和值映射）性能的数据集集合。

数据集结构

数据集访问

数据集可通过以下链接下载：

下载后，需将数据集解压到 datasets 目录下。

模式匹配

模式匹配是识别两个数据库模式之间属性对应关系的过程。支持的模式匹配方法包括：

Coma
Coma++
Distribution-based
Jaccard Distance
Similarity Flooding
Unicorn
ISResMat
Magneto

搜集汇总

数据集介绍

构建方式

数据集data-harmonization-benchmark由纽约大学与领域专家合作构建，旨在解决生物医学数据集成的复杂模式匹配问题。该数据集包含真实的生物医学数据，涵盖了多个研究项目，这些数据需要与国家癌症研究所的基因组数据中心（GDC）标准进行匹配。数据集的构建过程包括从多个研究中收集数据，并通过手动对齐和匹配这些数据到GDC标准，以确保数据集的真实性和复杂性。

特点

该数据集的特点在于其真实性和复杂性，涵盖了生物医学领域的多种数据类型和异构性。数据集中的模式匹配任务具有高度挑战性，因为属性名称和值的表示方式存在显著的异质性和歧义性。此外，数据集的构建过程中引入了新的挑战，使得现有的模式匹配方法难以应对。

使用方法

该数据集可用于评估和比较不同模式匹配算法的性能，特别是在处理复杂和异构数据时的表现。研究者可以通过该数据集测试其算法在生物医学数据集成中的适用性，并探索如何结合小语言模型（SLMs）和大语言模型（LLMs）来提高模式匹配的准确性和效率。数据集的源代码和相关资源已公开，便于研究者进行实验和验证。

背景与挑战

背景概述

近年来，随着语言模型的快速发展，处理复杂模式匹配任务的新机会也随之出现。然而，现有的模式匹配方法在处理小型语言模型（SLMs）时需要大量的训练数据，而这些数据的获取既昂贵又具有挑战性；而大型语言模型（LLMs）虽然不需要训练数据，但其高计算成本和上下文窗口的限制也带来了显著的挑战。为了应对这些局限性，纽约大学的研究人员提出了Magneto框架，该框架通过结合SLMs和LLMs的优势，提供了一种高效且准确的模式匹配解决方案。Magneto通过分阶段处理，首先使用计算效率高的SLM进行候选匹配的检索，然后利用LLMs对候选匹配进行重新排序，从而在不牺牲匹配准确性的前提下降低运行时间。此外，Magneto还引入了一个新的基准数据集——data-harmonization-benchmark，该数据集包含了真实的生物医学数据，旨在为模式匹配方法提供新的挑战。

当前挑战

data-harmonization-benchmark数据集的构建和应用面临多个挑战。首先，模式匹配任务在处理具有模糊性和异质性的属性表示时尤为困难，传统的基于属性名称、数据类型和值的相似性评估方法往往无法有效应对这些复杂情况。其次，构建过程中，获取高质量的训练数据是一个重大挑战，尤其是对于生物医学数据，手动标注的成本极高。此外，LLMs在处理长上下文窗口时，计算成本会显著增加，且随着输入和输出规模的扩大，模型的准确性也可能下降。最后，如何有效地将LLMs应用于表格数据，特别是如何选择合适的序列化策略，仍然是一个开放的研究问题。

常用场景

经典使用场景

data-harmonization-benchmark数据集最经典的应用场景在于解决复杂的数据模式匹配问题，特别是在生物医学领域。该数据集通过提供真实的生物医学数据集，帮助研究人员在多源数据整合过程中进行模式匹配，从而实现数据的标准化与统一。例如，在癌症研究中，研究人员需要将来自不同研究的数据集映射到统一的GDC标准，以进行综合分析。

衍生相关工作

基于data-harmonization-benchmark数据集，衍生了许多相关的工作，特别是在模式匹配和数据整合领域。例如，Magneto框架通过结合小语言模型（SLM）和大语言模型（LLM），提出了一种高效的模式匹配解决方案。此外，该数据集还促进了对比学习、自监督学习等技术在模式匹配中的应用，推动了数据管理领域的技术进步。

数据集最近研究