Cognitive Biases & Logical Fallacies — Wikipedia NLP Dataset

github2026-04-21 更新2026-04-25 收录

下载链接：

https://github.com/Asia-Qayoum/-Cognitive-Biases-Logical-Fallacies-Wikipedia-NLP-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

第一个专门针对人类认知偏见和逻辑谬误的结构化、NLP就绪的维基百科数据集。为研究人员、NLP从业者和批判性思维爱好者构建。

The first structured, NLP-ready Wikipedia dataset specifically targeting human cognitive biases and logical fallacies, constructed for researchers, NLP practitioners, and critical thinking enthusiasts.

创建时间：

2026-04-21

原始信息汇总

🧠 认知偏见与逻辑谬误 —— 维基百科 NLP 数据集概述

数据集概览

这是首个专为自然语言处理（NLP）构建的、结构化的维基百科数据集，专注于人类认知偏见与逻辑谬误，面向研究人员、NLP 从业者及批判性思维爱好者。

属性	数值
总条目数	50
认知偏见	30 条
逻辑谬误	20 条
数据来源	维基百科（通过 `wikipedia-api` 抓取）
数据格式	`.csv`、`.txt`（单个文件 + 合并文件）
文本特征	12 列
语言	英语
许可证	CC BY-SA 4.0（维基百科内容）

数据结构

项目包含以下主要目录与文件：

data/cognitive_biases/ —— 30 个独立的认知偏见 .txt 文件
data/logical_fallacies/ —— 20 个独立的逻辑谬误 .txt 文件
data/combined/all_topics.txt —— 全部 50 个主题合并的文本文件
output/cognitive_biases_fallacies_dataset.csv —— 主要增强数据集（12 列）
output/ 下包含三张图表：chart1_word_count.png、chart2_sentiment.png、chart3_reading_level.png
scraper.py —— 维基百科抓取与特征提取脚本
visualize.py —— 数据分析与可视化脚本

CSV 列参考（12 列）

列名	类型	描述	示例
`category`	字符串	主题分类	`"Cognitive Bias"` 或 `"Logical Fallacy"`
`name`	字符串	维基百科文章标题	`"Confirmation bias"`
`summary`	字符串	第一段（维基百科摘要）	`"Confirmation bias is..."`
`full_text`	字符串	完整文章内容	（完整维基百科内容）
`word_count`	整数	全文总词数	`8586`
`char_count`	整数	字符数（不含空格）	`48945`
`sentence_count`	整数	估计句子数	`439`
`avg_word_length`	浮点数	每词平均字符数	`5.68`
`sentiment_score`	浮点数	情感极性分数（-1 到 +1）	`0.0234`
`sentiment_label`	字符串	情感分类	`"Neutral"`, `"Positive"`, 或 `"Negative"`
`reading_level`	浮点数	Flesch-Kincaid 易读性分数（0-100）	`62.45`
`top_keywords`	字符串	TF-IDF 提取的关键词	`"bias, cognitive, effect, study"`

覆盖的主题（共 50 个）

认知偏见（30 个）

包含：确认偏差、邓宁-克鲁格效应、锚定效应、可得性启发、聚类错觉、后见之明偏差、光环效应、赌徒谬误等。其他如：消极偏见、乐观偏见、鸵鸟效应、结果偏见、过度自信效应、安慰剂效应、规划谬误、近因偏见、自利偏见、现状偏见、刻板印象、沉没成本谬误等。

逻辑谬误（20 个）

包含：诉诸人身、诉诸权威、诉诸情感、诉诸自然、诉诸无知、从众谬误、乞题、黑天鹅理论、摘樱桃、循环论证、错误类比、假两难、赌徒谬误、仓促概括、误导性生动、完美主义谬误、事后归因、红鲱鱼、滑坡谬误、稻草人。

数据分析洞察

文章长度分析

认知偏见：平均每篇约 2,900 单词
逻辑谬误：平均每篇约 2,400 单词
认知偏见文章平均比逻辑谬误文章长约 500 单词
最长文章：确认偏差（约 8,500 单词）
最短文章：聚类错觉（约 290 单词）

情感分析

认知偏见：平均情感分数 +0.0247（略偏正面）
逻辑谬误：平均情感分数 +0.0156（略偏正面）
大多数文章为维基百科中性的语调风格

阅读难度（Flesch-Kincaid 量表：0-100）

认知偏见：平均易读性 62.5（中等难度，高中水平）
逻辑谬误：平均易读性 64.2（中等难度，高中水平）

统计摘要

指标	数值
总主题数	50
平均文章长度	约 2,670 单词
总字符数	超过 120 万
总句子数	超过 6,500
平均情感分数	+0.0201（略偏正面）
平均易读性	63.33（中等难度）

适用场景

文本分类 —— 区分偏见与谬误
主题建模 —— 使用 LDA、NMF 发现主题
可读性分析 —— 比较不同类别的语言复杂度
NLP 预处理 —— 分词、词干提取、词形还原、TF-IDF
错误信息检测 —— 训练机器学习模型识别错误推理
批判性思维 AI —— 构建辩论助手和事实核查工具
语义搜索 —— 通过嵌入相似性查找相似主题
情感分析 —— 比较不同类别的情绪基调
摘要任务 —— 抽取式或生成式摘要
知识图谱 —— 构建概念间的关系图谱

许可证与引用

数据来源：维基百科（CC BY-SA 4.0 许可证）
项目脚本：MIT 许可证（用于抓取和可视化脚本）
使用该数据集时需注明维基百科来源，并遵守 CC BY-SA 4.0 条款

搜集汇总

数据集介绍

构建方式

该数据集通过调用维基百科API，系统性地爬取了30种认知偏误与20种逻辑谬误的完整词条内容。爬取过程中，每个主题的原始文本被保存为独立的TXT文件，同时合并生成全集文件。在此基础上，借助TF-IDF算法提取每个文档的关键词，并利用TextBlob与textstat库分别计算情感极性与弗莱士-金凯德阅读难度等级，最终整合为包含12个字段的结构化CSV数据集。整个流程由scraper.py脚本自动化完成，确保了数据获取与特征工程的标准化与可复现性。

使用方法

用户可通过简单的CSV加载操作将数据集导入pandas DataFrame，并利用其丰富的列进行多样化的分析。例如，可依据'category'列筛选认知偏误或逻辑谬误子集，使用'word_count'列进行文章长度排序，或基于'sentiment_score'与'reading_level'探索不同类别的情感倾向与语言复杂度差异。此外，提供的scraper.py与visualize.py脚本支持数据集的自定义扩展与可视化分析，用户可修改主题列表以获取新词条，或运行可视化脚本生成词频、情感与阅读难度分布图。

背景与挑战

背景概述

在日常决策中，人类常常受到认知捷径、情绪触发及错误推理模式的影响，导致判断失准。然而，学界一直缺乏一个专门针对人类认知偏见与逻辑谬误的结构化自然语言处理数据集。为此，该数据集应运而生，由研究者于2026年4月创建，旨在填补这一空白。它从维基百科中精准抓取30种认知偏见与20种逻辑谬误的相关文章，经过清洁处理和特征丰富，产出包含12个列，如词频、情感倾向、阅读难度等的CSV数据集，为构建虚假信息检测器、批判性思维工具和辩论型人工智能系统提供了坚实的基础。该数据集的出现，显著推动了可解释人工智能与认知科学交叉领域的研究，使研究者能够系统性地量化人类推理的偏差模式。

当前挑战

该数据集首先直面了一个核心领域挑战：如何有效识别和归类散布在自然语言中的认知偏见与逻辑谬误。此前，缺乏干净、结构化的语料库使得训练监督学习模型进行文本分类或误区检测极为艰难。其次，在构建过程本身，项目面临维基百科页面结构不一致的难题——不同文章的长度、格式千差万别，最长如确认偏见约8500词，最短如聚类错觉仅290词，且内容更新导致部分页面可能被移除。同时，正确从每篇文章中提取并分配“认知偏见”或“逻辑谬误”标签，确保分类准确无误，也是一项需要严谨文本分析和领域知识的挑战。

常用场景

经典使用场景

在自然语言处理领域，该数据集最经典的应用场景是构建文本分类模型，以区分认知偏差与逻辑谬误两类不同的推理缺陷。研究者可利用其包含的50个高质量维基百科条目，结合TF-IDF、词嵌入或预训练语言模型，训练分类器实现对人类思维中常见系统性偏差的自动识别。该数据集特别适用于监督学习范式下的多标签分类任务，其内置的情感评分、阅读难度与关键词特征为模型提供了丰富的辅助信息。此外，基于全文或摘要的语义相似性检索，也常用于构建面向批判性思维培养的智能问答系统。

解决学术问题

该数据集系统性地解决了认知科学与计算语言学交叉领域的一个核心痛点——缺乏结构化、可机器处理的认知偏差与逻辑谬误语料库。在学术研究中，该数据集支持研究者探究人类推理缺陷的文本表征模式，例如不同偏差类型在情感倾向、句法复杂度与语篇结构上的差异。它为自动识别论证谬误、检测伪理性话语以及量化文本中非理性思维倾向提供了可复现的基准，推动了认知计算科学从理论模型向实证研究的跨越，同时也为论证挖掘与事实核查领域贡献了关键的语义资源。

实际应用

在实际应用中，该数据集最显著的落地场景是辅助构建面向公众的批判性思维工具与教育辅助系统。例如，开发者可利用此数据集训练检测虚假论证的智能插件，在社交媒体或新闻平台上实时标注逻辑谬误与认知偏差。其文本特征分析能力还被应用于在线辩论辅助系统中，帮助用户识别自身论证中的推理缺陷。此外，该数据集在信息素养教育中扮演重要角色，通过生成可视化阅读难度与情感趋势图表，协助学习者理解不同偏差的语言特征，从而提升公众对认知陷阱的警觉性。

数据集最近研究