FLEX Benchmark

Name: FLEX Benchmark
Creator: 德国比勒费尔德大学计算语言学系
Published: 2025-05-28 21:35:07
License: 暂无描述

arXiv2025-05-28 更新2025-05-30 收录

下载链接：

https://doi.org/10.5281/zenodo.15348857

下载链接

链接失效反馈

官方服务：

资源简介：

FLEX Benchmark数据集由德国比勒费尔德大学计算语言学系创建，包含1104条针对大型语言模型（LLMs）处理错误预设的测试数据。数据集以德语编写，涵盖政治领域的虚假信息预设，旨在评估LLMs在处理和识别错误预设方面的能力。数据集的创建过程基于语言学预设分析，通过设计实验条件，包括预设触发类型、嵌入上下文和场景可能性，来系统地研究LLMs对这些预设的敏感性和反应。该数据集对于研究LLMs在处理政治信息时的真实世界应用具有重要意义，有助于揭示LLMs在预设处理中的潜在风险，并提高LLMs在识别和拒绝虚假信息方面的能力。

The FLEX Benchmark dataset was developed by the Department of Computational Linguistics at Bielefeld University, Germany, and consists of 1,104 test instances focused on the errors made by large language models (LLMs) when handling presuppositions. The dataset is written in German and covers false information presuppositions within the political domain, with the goal of evaluating LLMs' capabilities in processing and identifying presuppositions. Its development is grounded in linguistic presupposition analysis, with experimental conditions including presupposition trigger types, embedded contexts, and scenario plausibility deliberately designed to systematically examine LLMs' sensitivity to and reactions toward such presuppositions. This dataset is of great significance for researching real-world applications of LLMs when dealing with political information, as it helps uncover potential risks in LLMs' presupposition handling and enhances the ability of LLMs to identify and reject false information.

提供机构：

德国比勒费尔德大学计算语言学系

创建时间：

2025-05-28

搜集汇总

数据集介绍

构建方式

FLEX Benchmark数据集的构建基于系统化的语言学预设分析，聚焦于政治语境中的虚假预设现象。研究团队设计了1104个德语提示，涵盖7种预设触发类型（如事实动词、状态变化动词等）、3种嵌入环境（疑问、否定、情态）、2种情景概率（高概率与低概率）以及8种政治取向组合。通过控制变量法，确保每个提示均包含关于德国政党会议的虚假预设，并采用人工标注方式对三大语言模型（GPT-4-o、LLama-3-8B、Mistral-7B-v03）的3312条响应进行归类分析。

特点

该数据集的核心特点在于其多维度的实验设计，首次系统考察了语言学因素（触发类型、嵌入环境）与认知因素（情景概率）对语言模型处理虚假预设的交互影响。其政治语境设计通过德国多党制体系实现了政治距离的量化控制，而人工标注的严苛标准（Fleiss’ κ=0.82）确保了数据可靠性。特别值得注意的是，数据集揭示了模型响应存在显著差异：GPT-4-o的预设拒绝率达84.08%，而Mistral-7B-v03仅2.44%，这种性能断层为模型鲁棒性研究提供了关键基准。

使用方法

使用该数据集时，研究者可通过其结构化实验条件开展三方面分析：首先，利用预设触发类型分类探究不同语言学结构对模型认知偏差的影响；其次，结合政治距离与情景概率的交叉分析，可量化世界知识对模型推理的调节作用；最后，通过对比不同嵌入环境下模型的响应模式，评估语境敏感性对虚假信息识别的影响。数据集配套的标注体系（‘错误预设接纳’‘预设拒绝’‘模糊回答’三级分类）支持细粒度错误分析，建议配合GLM模型进行多因素方差分析以揭示潜在交互效应。

背景与挑战

背景概述

FLEX Benchmark（False Presupposition Linguistic Evaluation eXperiment）是由德国比勒费尔德大学计算语言学团队于2025年创建的专业数据集，旨在系统评估大语言模型（LLMs）对虚假预设的识别能力。该数据集由Judith Sieker、Clara Lachenmaier和Sina Zarrieß等学者主导开发，聚焦政治语境下通过预设触发词（如事实动词、时间从句等）嵌入的虚假信息。其创新性在于首次将语言学预设理论与AI伦理研究结合，通过1104条德文提示词系统测试了GPT-4-o、LLama-3-8B等模型在否定、疑问等嵌入语境中的表现，为认知语言学与AI安全交叉研究提供了基准工具。

当前挑战

该数据集面临双重挑战：在领域问题层面，虚假预设识别涉及复杂的语用推理，现有LLMs在政治语境中对高概率事件的虚假预设拒绝率仅84.08%（GPT-4-o），而Llama-3-8B错误接纳率高达50.03%，暴露模型对语言陷阱的脆弱性；在构建层面，需平衡语言学理论严谨性与工程可行性——既要精确设计7类预设触发词（如'regret'等事实动词）与3种嵌入语境的组合，又要控制政党取向（德国选择党vs左翼党等）与事件概率变量，同时解决德语政治实体指代消歧与人工标注一致性（Fleiss' κ=0.82）等难题。

常用场景

经典使用场景

FLEX Benchmark数据集在自然语言处理领域中被广泛用于评估大型语言模型（LLMs）对虚假预设的识别能力。该数据集通过系统化的语言学预设分析，考察了不同触发类型、嵌入语境和情境概率对模型响应的影响，尤其在政治语境中，为研究LLMs的语用能力提供了重要基准。

解决学术问题

FLEX Benchmark解决了LLMs在处理虚假预设时的核心学术问题，揭示了模型在识别和拒绝错误信息方面的局限性。通过实验设计，该数据集量化了模型在不同条件下的表现差异，为提升LLMs的语用能力和减少错误信息传播提供了理论依据。其意义在于填补了LLMs在政治语境中处理虚假预设的研究空白，并为后续模型优化指明了方向。

衍生相关工作

围绕FLEX Benchmark衍生的经典工作包括对LLMs政治偏见的研究（如Bang等人2024年工作）和虚假预设检测方法的改进（如Kim等人2023年提出的(QA)²框架）。这些研究进一步扩展了数据集的应用场景，推动了跨语言虚假预设分析（如Srikanth等人2024年对医疗语境的探索）和人类与LLMs响应对比实验的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集