VaxGuard
收藏arXiv2025-03-12 更新2025-03-14 收录
下载链接:
http://arxiv.org/abs/2503.09103v1
下载链接
链接失效反馈官方服务:
资源简介:
VaxGuard是一个多生成器、多类型、多角色的疫苗相关错误信息数据集,由Macquarie University和University of Sydney创建。该数据集包括多种大型语言模型生成的与COVID-19、HPV和流感疫苗相关的错误信息,涵盖了不同角色如阴谋论者、恐慌制造者和反疫苗人士。数据集旨在评估检测方法在不同LLM和角色上的泛化能力,包含12万条样本,分为‘否则’(真实信息)和‘错误信息’两大类,每一类下有不同角色和疫苗类型的具体分布。
VaxGuard is a multi-generator, multi-type, and multi-role vaccine-related misinformation dataset developed by Macquarie University and the University of Sydney. This dataset encompasses misinformation related to COVID-19, HPV, and influenza vaccines generated by various large language models (LLMs), covering distinct personas including conspiracy theorists, fearmongers, and anti-vaccine activists. The dataset is designed to evaluate the generalization ability of misinformation detection methods across different LLMs and personas. It contains 120,000 samples, which are categorized into two main classes: "Otherwise" (Factual Information) and "Misinformation". Each class features specific distributions based on different personas and vaccine types.
提供机构:
Macquarie University, Australia; University of Sydney, Australia
创建时间:
2025-03-12
搜集汇总
数据集介绍

构建方式
VaxGuard数据集的构建方法采用了多种语言模型,包括开源模型如LLaMA3、PHI3和Mistral,以及OpenAI的GPT-3.5和GPT-4o。为了确保生成的文本长度适中且具有多样性,每个模型的最大token限制设置为200,温度参数设置为0.8。此外,为了模拟不同角色在疫苗相关内容生成和传播中的作用,研究者设计了四种不同的角色:误信息传播者、宗教阴谋论者、恐惧散布者和反疫苗者。通过使用特定的关键词和提示,每个角色在各个语言模型中生成与不同疫苗类型(COVID-19、HPV和人流感)相关的内容。为了验证数据集的质量和可靠性,研究人员对'Otherwise'和'误信息'两个类别的内容进行了手动验证,确保事实内容的准确性,以及误信息的虚假性和多样性。
使用方法
使用VaxGuard数据集的方法主要包括生成和检测两个方面。在生成方面,研究人员使用多种语言模型和角色提示来生成疫苗相关的误信息,以模拟真实世界中的误信息传播情况。在检测方面,研究人员选择了几种具有不同架构和能力的语言模型(如GPT-3.5、GPT-4o、LLaMA3、PHI3和Mistral)来评估它们检测由其他语言模型生成的误信息的能力。他们使用零样本、基于提示的方法来指导语言模型进行误信息检测,并通过准确性、精确度、召回率和F1分数来评估模型的表现。
背景与挑战
背景概述
VaxGuard数据集的创建旨在应对大型语言模型(LLM)生成疫苗相关虚假信息的挑战。随着LLM在文本生成能力上的显著提升,它们在生成疫苗相关虚假信息方面也带来了风险,这可能对公共卫生造成威胁。尽管已有研究关注人类撰写的虚假信息,但在理解LLM如何贡献于疫苗虚假信息以及如何最佳地检测它方面,仍存在显著差距。现有的基准测试往往忽略了疫苗特定的虚假信息以及虚假信息传播者的多样化角色。VaxGuard数据集包括由多个LLM生成的疫苗相关虚假信息,并提供了一个综合框架,用于检测各种角色中的虚假信息。研究结果表明,GPT-3.5和GPT-4o在检测虚假信息方面始终优于其他LLM,尤其是在处理微妙的或情感驱动的叙述时。另一方面,PHI3和Mistral的性能较低,在恐惧驱动的背景下,精确度和召回率较低。此外,随着输入文本长度的增加,检测性能往往会下降,这表明需要改进方法来处理更大的内容。这些结果突出了角色特定检测策略的重要性,并表明VaxGuard可以作为改进LLM生成疫苗虚假信息检测的关键资源。
当前挑战
VaxGuard数据集面临的主要挑战包括:1) LLM生成的疫苗相关虚假信息的检测;2) 构建过程中遇到的挑战,例如如何生成不同角色的多样化虚假信息,以及如何确保数据的准确性和可靠性。此外,随着输入文本长度的增加,LLM的检测性能下降,这表明需要改进方法来处理更大的内容。
常用场景
经典使用场景
VaxGuard数据集主要用于研究大型语言模型(LLM)生成疫苗相关虚假信息的检测。该数据集包含由多个LLM生成的与疫苗相关的虚假信息,以及一个全面框架,用于检测各种角色产生的虚假信息。经典的使用场景包括评估LLM在检测不同疫苗类型(如COVID-19、HPV和流感)的虚假信息方面的性能,以及分析不同角色(如阴谋论者、恐慌制造者和反疫苗活动家)的虚假信息生成和检测。此外,VaxGuard还用于研究LLM在检测由其他LLM生成的虚假信息方面的性能,以及评估LLM在处理不同长度文本时的检测性能。
解决学术问题
VaxGuard数据集解决了学术研究中关于LLM生成疫苗相关虚假信息的检测问题。现有基准数据集往往忽略了疫苗特定的虚假信息和虚假信息传播者的多样性角色。VaxGuard通过提供由多个LLM生成的疫苗相关虚假信息,并建立了一个全面框架来检测各种角色的虚假信息,填补了这一研究空白。此外,VaxGuard还解决了LLM在检测虚假信息方面的性能问题,特别是当处理微妙或情绪化的叙述时。这些结果突出了角色特定检测策略的重要性,并表明VaxGuard可以作为改进LLM生成疫苗相关虚假信息检测的关键资源。
实际应用
VaxGuard数据集在实际应用场景中具有重要的意义。它可以用于开发更精确的干预措施,保护公众健康,并维护疫苗接种计划的可信度。此外,VaxGuard还可以用于训练和评估虚假信息检测模型,以识别和消除在线平台上的虚假信息。这些模型可以用于社交媒体、新闻网站和其他在线平台上,以帮助用户识别和避免虚假信息。通过使用VaxGuard数据集,可以更好地理解LLM生成虚假信息的方式,并开发更有效的检测方法,从而保护公众免受虚假信息的影响。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)文本生成能力显著提升的同时,如何有效检测LLMs生成的疫苗相关虚假信息成为公共卫生领域的一大挑战。VaxGuard数据集的提出旨在填补这一研究空白。该数据集包含了由多个LLMs生成的疫苗相关虚假信息,并提供了针对不同角色的虚假信息检测的全面框架。研究结果表明,GPT-3.5和GPT-4o在检测虚假信息方面表现优异,尤其是在处理微妙或情绪化的叙述时。然而,PHI3和Mistral在恐惧驱动的背景下,精确度和召回率较低。此外,随着输入文本长度的增加,检测性能趋于下降,这表明需要改进的方法来处理更大的内容。这些结果突出了角色特定检测策略的重要性,并表明VaxGuard可以成为改进LLMs生成疫苗相关虚假信息检测的关键资源。
相关研究论文
- 1VaxGuard: A Multi-Generator, Multi-Type, and Multi-Role Dataset for Detecting LLM-Generated Vaccine MisinformationMacquarie University, Australia; University of Sydney, Australia · 2025年
以上内容由遇见数据集搜集并总结生成



