VITAL

Name: VITAL
Creator: 墨尔本大学计算与信息系统学院，澳大利亚
Published: 2025-02-19 22:38:57
License: 暂无描述

arXiv2025-02-19 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.13775v1

下载链接

链接失效反馈

官方服务：

资源简介：

VITAL数据集是一个专门针对医疗领域构建的全面基准数据集，包含13.1万个具有价值观负载的场景和5.4万个多项选择题。该数据集由墨尔本大学计算与信息系统学院和Macquarie大学计算学院共同构建，旨在评估和基准化多元对齐方法。数据集覆盖了医疗场景中多个角度和观点的多样性，为大型语言模型在医疗领域的多元对齐提供了专门的评估工具。

提供机构：

墨尔本大学计算与信息系统学院，澳大利亚

创建时间：

2025-02-19

搜集汇总

数据集介绍

构建方式

VITAL数据集的构建始于大规模问题库的建设，从多个调查和道德数据集中收集多项选择题。这些题目被筛选以确保与医疗健康相关，并具有多元视角和主观性。通过使用FLAN-T5模型进行少样本分类，过滤掉与医疗健康无关、缺乏多元观点或不要求采取行动的问题和场景。最终，VITAL数据集包含了13,100个价值丰富的情境和5,400个多项选择题，涵盖了健康领域的多元观点和立场。

特点

VITAL数据集的特点在于其专注于医疗健康领域的多元观点对齐。数据集不仅包括了价值丰富的情境，还包含了多项选择题，以评估LLMs在多元对齐方面的表现。数据集涵盖了多元对齐的三个模式：Overton、Steerable和Distributional，旨在评估LLMs在处理多元健康观点方面的能力。此外，VITAL数据集在词汇和主题上具有高度的多样性，确保了其作为多元对齐基准的挑战性和全面性。

使用方法

VITAL数据集的使用方法主要包括评估和基准化LLMs在多元对齐方面的表现。研究人员可以利用数据集中的价值丰富情境和多项选择题，对LLMs进行评估，以确定其是否能够有效地处理多元健康观点。此外，VITAL数据集还可以用于开发针对特定领域的多元对齐技术，以改善LLMs在医疗健康领域的表现。为了使用VITAL数据集，研究人员需要熟悉多元对齐的概念和评估方法，并了解如何使用LLMs进行评估和基准化。

背景与挑战

背景概述

VITAL数据集是由Anudeex Shetty、Amin Beheshti、Mark Dras和Usman Naseem等研究人员于2025年创建，旨在为医疗保健领域的多元对齐评估提供一个基准数据集。该数据集包含13.1K个价值负载场景和5.4K个多项选择题，重点关注医疗保健领域，旨在评估和基准化多元对齐方法。通过广泛评估不同大小的八个大型语言模型（LLMs），研究人员发现现有的多元对齐技术在有效容纳多样化的医疗保健信仰方面存在不足，突出了在特定领域开发定制化AI对齐方法的必要性。这项工作揭示了当前方法的局限性，并为开发特定于医疗保健的对齐解决方案奠定了基础。

当前挑战

VITAL数据集所面临的挑战主要包括：1) 医疗保健领域多元对齐的挑战，现有对齐技术往往模型平均或单一偏好，无法充分考虑到文化、人口统计和社区之间观点的多样性；2) 构建数据集过程中的挑战，包括数据收集、过滤、专家评审和分析的严谨性和全面性，以及如何确保数据集能够全面涵盖不同文化、宗教、价值观和观点的多样性。

常用场景

经典使用场景

VITAL数据集被设计用于评估和基准化医疗保健领域的多元主义对齐方法。它包括13.1K个价值丰富的情境和5.4K个多选题，旨在模拟医疗保健中存在的多元文化和多元价值观。通过使用VITAL数据集，研究人员可以评估当前的大型语言模型（LLMs）在处理医疗保健相关问题时是否能够考虑到不同的文化和个人价值观，并生成符合人类价值观的输出。

解决学术问题

VITAL数据集解决了现有对齐方法在医疗保健领域中的局限性。现有方法通常只模拟平均人类价值观，而忽视了不同群体之间偏好的多样性。VITAL数据集的引入填补了这一空白，为评估和改进医疗保健领域中的多元主义对齐方法提供了基准。通过使用VITAL数据集，研究人员可以识别现有方法的不足，并开发针对医疗保健领域的定制解决方案。

衍生相关工作

VITAL数据集的引入衍生了一系列相关工作，旨在改进医疗保健领域的多元主义对齐方法。这些工作包括开发针对特定医疗保健领域的定制对齐方法、研究LLMs在处理多元文化和多元价值观方面的能力，以及评估不同对齐方法在医疗保健领域的性能。这些工作有助于推动医疗保健领域中的多元主义对齐方法的进步，并为开发更智能、更符合人类价值观的医疗保健系统提供支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集