five

misinformation-guard

收藏
Hugging Face2025-07-31 更新2025-08-01 收录
下载链接:
https://huggingface.co/datasets/Intel/misinformation-guard
下载链接
链接失效反馈
官方服务:
资源简介:
MisInformation Guard是一个合成的文本分类数据集,用于训练和评估根据错误信息进行文本分类的模型。数据集通过自定义的管道使用LLM模型生成,包含约41,000个样本,分为训练验证集和测试集。每个样本包括生成的合成文本、生成文本的理由、分类标签以及用于生成样本的模型信息。分类标签包括`false`(完全错误或编造的信息)、`partially true`(包含一些真实信息但具有误导性或缺乏重要上下文)、`mostly true`(基本准确但可能有小的错误或遗漏)和`true`(完全准确和事实性的信息)。
提供机构:
Intel
创建时间:
2025-07-31
原始信息汇总

MisInformation Guard: 合成文本分类数据集概述

数据集基本信息

  • 许可证: cdla-permissive-2.0
  • 数据集类型: 合成
  • 样本数量: 41,000
  • 任务: 文本分类
  • 领域: 多标签文本分类,类别包括falsepartially truemostly truetrue

数据集描述

  • 生成方法: 使用自定义流程通过以下大型语言模型生成合成数据:
    • Llama 3.1 8B
    • Mixtral 8x7B

数据集结构

  • 训练集 + 验证集: ~33,000个样本
  • 测试集: ~8,000个样本

样本结构

每个样本包含以下字段:

  • output: 由LLM生成的合成文本(字符串)
  • reasoning: LLM生成文本的推理过程(字符串)
  • label: 分类标签(类别)
  • model: 生成样本所使用的模型(字符串)

标签描述

  • false: 完全虚假或捏造的信息
  • partially true: 包含部分真实信息但具有误导性或缺乏重要上下文
  • mostly true: 基本准确但可能存在轻微不准确或遗漏
  • true: 完全准确且真实的信息

使用方式

python from datasets import load_dataset dataset = load_dataset("Intel/misinformation-guard")

免责声明

该数据集仅在有限的合成生成数据上进行训练和验证。在此狭窄用例之外无法保证准确性指标,因此应在特定使用背景下验证该工具。该工具不应用于评估员工绩效,也不足以在许多情况下防止伤害,在可能因错误信息对个人、社区或社会造成伤害的敏感用例中应使用其他工具和技术。

搜集汇总
数据集介绍
main_image_url
构建方式
在信息真实性验证领域,misinformation-guard数据集通过创新的合成数据生成技术构建而成。该数据集采用定制化生成流程,整合了Llama 3.1 8B和Mixtral 8x7B两大先进语言模型,通过模型推理生成具有不同真实程度的文本样本。构建过程中精心设计了四层级分类体系,涵盖从完全虚假到完全真实的完整真实性谱系,最终形成包含41,000个样本的标准化数据集。
特点
该数据集最显著的特征在于其精细的真实性分级体系,将文本划分为false、partially true、mostly true和true四个层级,精准捕捉信息真实性的连续变化。每个样本不仅包含生成文本,还保留了语言模型的推理过程及生成模型信息,为研究模型决策机制提供了宝贵线索。数据集采用33,000训练验证样本与8,000测试样本的合理划分,确保模型开发与评估的科学性。
使用方法
研究人员可通过Hugging Face平台便捷加载该数据集,使用标准文本分类流程进行模型训练与评估。典型应用场景包括开发信息真实性检测模型、分析语言模型生成文本的真实性特征等。值得注意的是,由于数据集基于合成数据生成,在实际应用中需结合具体场景进行额外验证,建议将其作为辅助工具而非独立决策依据。数据集的多标签分类特性使其特别适合探索信息真实性这一复杂连续变量的建模方法。
背景与挑战
背景概述
在数字时代,虚假信息的泛滥已成为全球性挑战,对公共舆论和社会稳定构成严重威胁。为应对这一挑战,Intel公司推出了MisInformation Guard数据集,旨在通过合成文本分类技术识别和分类虚假信息。该数据集于近期发布,包含41,000个样本,涵盖‘完全虚假’、‘部分真实’、‘基本真实’和‘完全真实’四种类别,为研究者和开发者提供了宝贵的资源。数据集采用Llama 3.1 8B和Mixtral 8x7B等先进大语言模型生成,标志着人工智能在信息真实性验证领域的重要进展。
当前挑战
虚假信息检测领域面临的核心挑战在于信息的复杂性和多样性,尤其是部分真实或误导性内容的准确分类。MisInformation Guard数据集在构建过程中需克服合成数据的真实性和多样性问题,确保生成的文本能够覆盖现实场景中的各类情况。此外,数据集的标签设计需精确反映信息的真实程度,这对模型的训练和评估提出了更高要求。尽管采用了先进的生成技术,数据集的泛化能力仍受限于合成数据的局限性,需在实际应用中进一步验证。
常用场景
经典使用场景
在数字信息爆炸的时代,misinformation-guard数据集为研究者提供了一个标准化的基准,用于评估文本分类模型在识别虚假信息方面的性能。通过多标签分类任务,该数据集能够帮助模型区分完全虚假、部分真实、基本真实和完全真实的信息,为自然语言处理领域的研究提供了重要工具。
衍生相关工作
misinformation-guard数据集衍生了多项经典工作,包括基于Llama 3.1和Mixtral 8x7B的文本分类模型优化研究,以及多标签分类算法在虚假信息检测中的应用。这些工作进一步拓展了数据集的使用范围,为后续研究提供了丰富的参考和基础。
数据集最近研究
最新研究方向
在虚假信息检测领域,MisInformation Guard数据集以其独特的合成数据生成方式成为研究热点。该数据集通过Llama 3.1和Mixtral等先进大语言模型构建的多标签分类体系,为虚假信息识别提供了新的研究范式。当前研究主要聚焦于如何利用合成数据的可扩展性优势,结合迁移学习技术提升模型在真实场景中的泛化能力。随着社交媒体平台对内容审核需求的激增,该数据集在开发鲁棒性检测算法方面展现出重要价值,特别是在处理'部分真实'这类复杂语义场景时表现出独特优势。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作