five

anecdoctoring

收藏
arXiv2025-09-23 更新2025-09-25 收录
下载链接:
https://duke-reporters-lab.github.io/fact-checking-articles/
下载链接
链接失效反馈
官方服务:
资源简介:
Anecdoctoring 数据集是一个用于生成跨语言和文化的对抗性提示的数据集。它收集了来自三个语言(英语、西班牙语和印地语)和两个地区(美国和印度)的事实核查网站上的虚假信息声明。这些声明被聚类成更广泛的叙事,并用知识图谱来表征这些集群。数据集创建过程中,首先收集了来自事实核查网站的数据,然后将单个声明聚类成更广泛的叙事,并为每个集群构建一个攻击者 LLM。数据集的应用领域是用于生成对抗性提示,以提高对生成式 AI 模型进行红队评估的鲁棒性。

The Anecdoctoring Dataset is a dataset dedicated to generating cross-lingual and cross-cultural adversarial prompts. It collects misinformation claims from fact-checking websites across three languages (English, Spanish, and Hindi) and two regions (the United States and India). These claims are clustered into broader narratives, and knowledge graphs are used to characterize these clusters. The dataset creation process first involves collecting data from fact-checking websites, then clustering individual claims into broader narratives, and constructing an adversarial LLM for each cluster. The dataset is applied to generate adversarial prompts to improve the robustness of red team evaluations for generative AI models.
提供机构:
卡内基梅隆大学, 华盛顿大学, 微软研究院, 独立研究员
创建时间:
2025-09-23
搜集汇总
数据集介绍
main_image_url
构建方式
在虚假信息检测领域,anecdoctoring数据集通过系统化采集多语言事实核查数据构建而成。研究团队从美国与印度两地的事实核查网站收集了英语、西班牙语和印地语三种语言的虚假信息声明,时间跨度为2022年至2024年。采用多语言嵌入模型Cohere embed-multilingual-v3.0生成文本向量后,通过UMAP降维和HDBSCAN聚类算法将独立声明归纳为具有文化特异性的叙事簇,最终基于知识图谱增强的大型语言模型生成对抗性测试提示。
使用方法
该数据集主要应用于生成式AI系统的红队测试场景。研究人员可通过PyRIT开源框架调用数据集中的叙事簇与知识图谱,构建针对特定语言文化背景的对抗性提示。使用流程包含三个关键阶段:首先基于知识图谱生成符合本地语境的虚假信息模板,随后通过自动化评估系统量化目标模型的策略违反率,最后结合人工验证分析模型防御机制的薄弱环节。这种方法尤其适用于评估AI系统在非英语环境中的安全性表现,为开发跨文化安全防护措施提供数据支撑。
背景与挑战
背景概述
随着生成式人工智能的全球普及,虚假信息风险已成为AI滥用的首要威胁。2025年由卡内基梅隆大学、微软研究院等机构联合提出的Anecdoctoring数据集,旨在解决现有红队测试数据集中于英语和美国语境的问题。该数据集基于真实世界的事实核查数据,涵盖英语、西班牙语和印地语三种语言及美印两地地理背景,通过知识图谱增强的红队测试方法,系统性评估语言模型在多语言文化环境下的虚假信息生成风险。其创新性在于将个体虚假声明聚类为叙事图谱,为全球范围内的AI安全评估提供了实证基础。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决多语言文化背景下虚假信息检测的复杂性,传统翻译方法难以捕捉本地化冲突叙事,导致非英语语境的安全评估存在盲区;在构建技术层面,需克服多语言事实核查数据的稀疏性与文化特异性,通过聚类算法从高维嵌入空间中提取叙事模式,并利用知识图谱增强语言模型的语境理解能力,确保生成的对抗性提示既符合本地文化特征又保持攻击有效性。此外,数据标注依赖具备多语言能力的专家验证,对低资源语言的扩展仍存在技术壁垒。
常用场景
经典使用场景
在生成式人工智能安全评估领域,Anecdoctoring数据集被广泛应用于多语言环境下的红队测试场景。该数据集通过整合英语、西班牙语和印地语三种语言的真实辟谣数据,构建了涵盖美国和印度两大地理区域的知识图谱增强型对抗提示生成系统。其经典使用方式体现在将事实核查声明聚类为叙事簇后,利用知识图谱增强大型语言模型,生成具有文化适应性的对抗性攻击提示,从而系统性地探测语言模型在生成虚假信息方面的潜在风险。
解决学术问题
该数据集有效解决了生成式人工智能安全研究中的关键学术问题,特别是多语言环境下虚假信息危害评估的标准化难题。通过构建基于真实辟谣数据的知识图谱增强方法,它突破了传统红队测试中英语中心主义的局限,为跨语言文化背景的模型安全性评估提供了可复现的基准框架。其创新性体现在将叙事聚类分析与知识图谱表示学习相结合,不仅提升了对抗提示生成的成功率,还增强了红队测试过程的可解释性,为构建全球尺度的虚假信息防御体系奠定了方法论基础。
实际应用
在实际应用层面,Anecdoctoring数据集为人工智能安全团队提供了跨语言文化背景的风险评估工具。科技企业可以借助该数据集系统检测多语言模型在生成政治谣言、公共卫生误导等敏感内容时的脆弱性,从而针对性强化模型的安全护栏机制。政府监管机构则可基于数据集构建的叙事知识图谱,动态监测不同地域的虚假信息传播模式,制定差异化的内容治理策略。教育机构还能利用其可视化知识图谱开展数字素养教育,提升公众对跨文化虚假信息的辨识能力。
数据集最近研究
最新研究方向
在生成式人工智能安全评估领域,Anecdoctoring数据集推动了跨语言文化背景的红队测试方法创新。该数据集通过整合英语、西班牙语和印地语三种语言的真实事实核查数据,构建了基于知识图谱的叙事聚类框架,有效解决了传统红队测试中文化语境缺失的问题。当前研究聚焦于利用动态知识图谱增强大型语言模型对地域性虚假信息的识别能力,特别是在美国和印度等多元文化环境中验证模型对抗本地化叙事攻击的鲁棒性。这种方法不仅显著提升了多语言场景下的攻击成功率,更为全球范围内人工智能安全防御体系的构建提供了可解释的技术路径,标志着红队测试从单一语言评估向跨文化适应性评估的重要转变。
相关研究论文
  • 1
    Anecdoctoring: Automated Red-Teaming Across Language and Place卡内基梅隆大学, 华盛顿大学, 微软研究院, 独立研究员 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作