twitter

Hugging Face2026-04-15 更新2026-04-16 收录

下载链接：

https://huggingface.co/datasets/truevislies/twitter

下载链接

链接失效反馈

官方服务：

资源简介：

TrueVisLies – COVID-19 Twitter可视化数据集是一个用于研究误导性可视化检测的数据集，包含2020年1月至2021年8月期间发布的与COVID-19相关的Twitter帖子。每个条目包含一个图表图像以及关于推文和专家标注的元数据，标注指示可视化是否具有误导性以及包含的错误类型。数据集共包含2,336个样本，其中50%被标注为误导性可视化。数据集结构包括`index.csv`（主标注索引）、`metadata.json`（推文元数据）和`images/`文件夹（PNG格式图像）。数据集适用于图像分类任务，特别是与错误信息、误导性可视化和COVID-19相关的研究。图像仅限研究使用，原始权利归X（Twitter）和内容作者所有。

TrueVisLies – COVID-19 Twitter Visualization Dataset is a dataset dedicated to research on misleading visualization detection, containing COVID-19-related Twitter posts published between January 2020 and August 2021. Each entry includes a chart image and metadata about the tweet as well as expert annotations, where the annotations indicate whether the visualization is misleading and the specific types of errors it contains. The dataset has a total of 2,336 samples, with 50% of them annotated as misleading visualizations. Its structure includes `index.csv` (the main annotation index), `metadata.json` (tweet metadata), and the `images/` folder storing PNG-format images. This dataset is applicable to image classification tasks, particularly for research on misinformation, misleading visualizations, and COVID-19-related topics. The images are for research use only, and the original copyrights belong to X (Twitter) and the original content authors.

创建时间：

2026-04-01

原始信息汇总

TrueVisLies – COVID-19 Twitter Visualization Dataset 概述

数据集基本信息

数据集名称：TrueVisLies – COVID-19 Twitter Visualization Dataset
许可证：CC BY-NC 4.0
任务类别：图像分类
语言：英语
标签：可视化、错误信息、误导性可视化、COVID-19
数据规模：1K-10K
图像格式：PNG

数据集来源与用途

来源：该数据集是论文《Misleading Beyond Visual Tricks: How People Actually Lie with Charts》中收集的数据集的一个子集。
用途：用于误导性可视化检测研究。
相关论文：True (VIS) Lies: Analyzing How Generative AI Recognizes Intentionality, Rhetoric, and Misleadingness in Visualization Lies

数据集内容与结构

内容：包含在2020年1月至2021年8月期间发布的、与COVID-19相关的数据可视化图表推文。每个条目包含图表图像、推文元数据以及关于可视化是否具有误导性及其错误类型的专家标注。
文件结构：
- index.csv：主标注索引文件，包含image_id、tweet_id、is_misleading标签以及14个表示具体错误类型的二进制列。
- metadata.json：以tweet_id为键的JSON字典，包含推文作者、发布日期、推文文本、推文URL、原始图像URL、图像尺寸以及结构化的errors字段。
- images/：包含所有PNG格式图像的文件夹，文件名格式为{image_id}.png。

数据集统计信息

总样本数：2,336
误导性样本数：1,168 (50%)
非误导性样本数：1,168 (50%)

错误类型分布

错误类型	数量
Causal inference	356
Cherry-picking	300
Value as area/volume	253
Setting an arbitrary threshold	243
Dual axis	224
Issues with data validity	67
Failure to account for statistical nuance	61
Truncated axis	54
Inverted axis	35
Unclear encoding	19
Misrepresentation of scientific studies	18
Inappropriate encoding	11
Uneven binning	3
Incorrect reading of chart	4

字段说明

`index.csv` 主要列

image_id：唯一图像标识符。
tweet_id：关联的推文标识符。
is_misleading：指示可视化是否被标注为误导性。
error[*]：共14列，每列对应一种错误类型，值为1表示存在该错误。

`metadata.json` 主要字段

tweet_id：推文标识符。
is_misleading：布尔值，指示可视化是否具有误导性。
author：推文作者显示名称。
date：发布时间戳。
text：推文全文。
tweet_url：原始推文在X上的永久链接。
image_url：Twitter托管的原始图像URL。
image_width：图像宽度。
image_height：图像高度。
errors.visualization_design_violations：可视化中存在的设计层面错误列表。
errors.reasoning_errors：可视化中存在的推理层面错误列表。
image_id：图像标识符。

使用许可与权利

数据集中的图像仅限研究用途。
所有图像的原始权利归X (Twitter) 及相应的推文作者所有。

引用要求

若在研究中使用此数据集，请引用相关论文。

搜集汇总

数据集介绍

构建方式

在信息可视化与社交媒体交叉研究领域，TrueVisLies COVID-19 Twitter可视化数据集通过系统化方法构建而成。研究团队从Twitter平台收集了2020年1月至2021年8月期间发布的与COVID-19相关的数据可视化推文，形成了初始语料。每一条数据均包含可视化图像及其对应的推文元数据。随后，依据Lisnic等人（2023）在CHI会议上提出的误导性图表分析框架，由领域专家对每幅可视化图像进行细致标注，判断其是否具有误导性，并进一步识别出如因果推断错误、选择性呈现数据、双轴误导等十四种具体的错误类型。这种基于专家标注的构建方式确保了数据标签的可靠性与学术深度。

特点

该数据集的核心特征在于其专注于社交媒体中数据可视化的误导性分析，尤其以COVID-19这一重大公共卫生事件为背景。数据集规模适中，包含2,336个样本，并在误导性与非误导性样本之间实现了精确的平衡，各占50%，这为模型训练与评估提供了良好的基准。其标注体系尤为精细，不仅提供了二元的误导性标签，更深入分解了十四种具体的可视化错误，并将它们归类为可视化设计违规与推理错误两大维度。这种多层次、结构化的标注信息为深入理解误导性可视化的修辞手法与认知机制提供了宝贵资源。

使用方法

该数据集主要服务于误导性可视化检测及相关计算传播学的研究。使用者可通过加载`index.csv`文件获取核心标注索引，结合`metadata.json`中的丰富元数据（如作者、日期、推文全文及结构化错误列表）进行多模态分析。图像文件存储于`images/`目录下，以PNG格式提供，便于与标注信息关联。典型的使用流程包括利用Python的pandas和PIL库分别读取标注数据与图像，进而训练或评估旨在自动识别图表误导性的机器学习模型。研究人员需严格遵守许可协议，仅将图像用于学术研究，并尊重Twitter平台及原内容作者的所有权。

背景与挑战

背景概述

TrueVisLies – COVID-19 Twitter可视化数据集由Maxim Lisnic、Cole Polychronis、Alexander Lex和Marina Kogan等研究人员于2023年构建，作为CHI会议论文《Misleading Beyond Visual Tricks: How People Actually Lie with Charts》的数据子集。该数据集聚焦于社交媒体中数据可视化的误导性分析，核心研究问题在于揭示COVID-19相关图表如何通过视觉设计违规与推理错误传播虚假信息。其收集了2020年1月至2021年8月期间Twitter平台上分享的2,336个可视化图像，并辅以专家标注，为计算传播学与信息可视化领域的交叉研究提供了实证基础，推动了误导性内容检测技术的发展。

当前挑战

该数据集旨在解决误导性可视化检测的领域挑战，包括识别多种复杂错误类型，如因果推断谬误、选择性数据呈现（Cherry-picking）以及双轴误导等，这些错误往往隐含于视觉修辞中，对自动化检测模型的语义理解与上下文推理能力提出较高要求。在构建过程中，研究人员面临数据收集与标注的双重困难：一方面需从动态社交媒体流中筛选COVID-19相关可视化内容，确保时效性与代表性；另一方面，标注工作依赖领域专家对14类错误进行精细判别，涉及主观判断与一致性维护，同时需妥善处理图像版权与伦理问题，以平衡研究价值与平台政策约束。

常用场景

经典使用场景

在数据可视化与信息传播研究领域，TrueVisLies数据集为分析社交媒体中误导性图表提供了关键资源。该数据集聚焦于COVID-19疫情期间Twitter平台上的可视化内容，通过专家标注识别图表中的设计违规与推理错误，如截断坐标轴、选择性数据呈现等。研究者利用该数据集训练和评估机器学习模型，以自动检测可视化中的误导性模式，从而深化对图表欺骗机制的理解。

解决学术问题

该数据集有效解决了可视化误导性检测中的若干核心学术问题。它提供了大规模、细粒度标注的真实世界图表样本，使研究者能够系统探究误导性图表的修辞意图与认知影响。通过区分设计违规与推理错误，数据集促进了跨学科研究，融合了视觉分析、人机交互与传播学理论，为构建可解释的误导检测算法奠定了实证基础，推动了可视化伦理与信息完整性领域的发展。

衍生相关工作

围绕TrueVisLies数据集，已衍生出多项经典研究工作。例如，原始论文《True (VIS) Lies》深入分析了生成式AI对可视化误导性的识别能力；后续研究扩展了数据集的标注框架，探索了多模态模型在图表意图分类中的应用。这些工作不仅推动了自动化误导检测技术的进步，还促进了可视化设计指南的完善，为构建更透明、可信的数据传播生态系统提供了理论依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集