合成媒体素养测试（SMeL Test）

Name: 合成媒体素养测试（SMeL Test）
Creator: 哈佛大学肯普纳学院
Published: 2025-08-04 13:29:17
License: 暂无描述

arXiv2025-08-04 更新2025-08-06 收录

下载链接：

https://arxiv.org/abs/2508.02074v1

下载链接

链接失效反馈

官方服务：

资源简介：

SMeL Test是一个用于评估语言模型媒体素养的基准测试，旨在测试模型在上下文中主动筛选不可靠信息的能力。该测试包括忽略可疑来源、解决矛盾和主动筛选三个任务。数据集由合成文档组成，模仿了不同可信度的来源，如百科全书条目、新闻文章、维基百科、粉丝小说等。实验结果表明，即使是先进的语言模型也经常无法正确地识别和忽略不可靠的信息来源。

SMeL Test is a benchmark for evaluating the media literacy of language models, designed to test models' ability to actively filter unreliable information within contextual scenarios. This benchmark includes three tasks: ignoring suspicious sources, resolving contradictions, and active information filtering. The dataset comprises synthetic documents that mimic sources with varying levels of credibility, such as encyclopedia entries, news articles, Wikipedia, fan fiction, and others. Experimental results demonstrate that even state-of-the-art language models frequently fail to correctly identify and disregard unreliable information sources.

提供机构：

哈佛大学肯普纳学院

创建时间：

2025-08-04

搜集汇总

数据集介绍

构建方式

合成媒体素养测试（SMeL Test）数据集的构建采用了多源合成文档的方法，通过GPT-4o生成模拟不同可信度来源的文本，包括百科全书、新闻文章、维基百科、论坛帖子、虚构故事等。每个文档围绕特定主题（如美国政府机构、著名犯罪案件、自然灾害）生成，并附带虚构的客观事实。数据集包含三个主要任务：忽略可疑来源、解决矛盾信息和主动过滤不可信内容，确保模型在不同情境下评估和筛选信息的能力。

特点

SMeL Test数据集的核心特点在于其多样化的来源模拟和严格的任务设计。数据集涵盖了从高可信度（如《大英百科全书》）到低可信度（如匿名论坛）的多种文本风格，每类文档均附带明确的来源标识。任务设计旨在测试模型对来源可信度的敏感度，例如在矛盾信息中选择更可靠的来源或在总结中过滤不可信内容。此外，数据集还包含真实新闻文章的对比实验，以验证合成数据的有效性。

使用方法

使用SMeL Test时，模型需在给定上下文中处理多源文档并执行特定任务。例如，在“解决矛盾”任务中，模型需根据来源可信度选择正确答案；在“主动过滤”任务中，需生成不包含不可信信息的摘要。评估时，通过模型输出与预设事实的一致性或人工评分来衡量其媒体素养能力。数据集的代码和文档已公开，支持研究者复现实验或扩展新任务。

背景与挑战

背景概述

合成媒体素养测试（SMeL Test）由哈佛大学Kempner研究所的Gustaf Ahdritz和Anat Kleiman于2025年提出，旨在评估语言模型在上下文中过滤不可信信息的能力。随着大型语言模型（LLMs）在自主网络浏览中的应用日益广泛，其处理未经验证或误导性内容的能力成为关键研究问题。该数据集通过模拟不同可信度的媒体源（如百科全书、新闻文章、社交媒体帖子等），测试模型在选择性回答问题、解决矛盾信息和主动过滤不可信内容等任务中的表现。SMeL Test的推出填补了现有基准测试在评估模型媒体素养方面的空白，为改进模型的信息处理能力提供了重要工具。

当前挑战

SMeL Test面临的核心挑战包括：1) 模型难以区分可信与不可信信息源，即使明确告知忽略低质量来源，主流API模型的错误率仍高达70%；2) 构建过程中需平衡合成数据的可控性与真实性，尽管合成数据能避免预训练污染，但模型可能因风格模仿不完美而产生偏差；3) 模型在长文本生成任务中表现出‘系统1’与‘系统2’知识的割裂，即能识别源质量却无法在输出中贯彻这一判断。此外，模型对信息源顺序的敏感性（如过度依赖先出现的内容）进一步增加了评估的复杂性。

常用场景

经典使用场景

合成媒体素养测试（SMeL Test）主要用于评估大型语言模型（LLMs）在面对不同可信度来源时的信息筛选能力。该数据集通过模拟真实网络环境中的信息来源，如百科全书、新闻文章、社交媒体帖子等，测试模型在选择性回答问题、总结信息和解决矛盾时的表现。其经典使用场景包括模型在检索增强生成（RAG）系统中如何权衡和过滤不同质量的信息来源。

衍生相关工作

SMeL Test衍生了一系列关于语言模型可信度评估的研究，如检索增强生成（RAG）系统的优化、模型幻觉检测以及长上下文指令遵循的改进。相关工作包括Clasheval（量化模型内部先验与外部证据的冲突）和InstructRetro（基于检索增强的指令调优模型）。这些研究进一步推动了模型在复杂信息环境中的鲁棒性发展。

数据集最近研究