Bad Science Corpus

github2022-06-11 更新2024-05-31 收录

下载链接：

https://github.com/underspecified/bscorpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个自动构建的关于科学争议话题的集合，收集了科学家和怀疑论博主的博客文章。项目旨在提供一个自我扩展的争议声明及其反驳的知识来源，以支持研究分析修辞和逻辑论证结构。

This is an automatically constructed collection on scientific controversy topics, gathering blog posts from scientists and skeptical bloggers. The project aims to provide a self-expanding knowledge source of controversial statements and their rebuttals, supporting research analysis on rhetorical and logical argument structures.

创建时间：

2012-11-23

原始信息汇总

数据集概述

数据集名称

The Bad Science Corpus

作者

Eric Nichols, Tohoku University, Japan

项目目标

该数据集旨在收集科学争议话题的博客文章，以支持研究分析修辞和逻辑论证结构。目标是创建一个能够自我扩展的争议声明及其反驳的知识来源。

数据资源

RSS feed: 包含数百个科学/怀疑论博客的RSS订阅，存储于data/xml。
Blog posts: 2009年7月至2012年11月的博客文章网络存档，存储于data/warc。
Discussions: 将引用相同外部链接的博客文章分组为讨论，以帮助提取争议意见和反驳，存储于data/disc。

工具

bin/gr_rss.py: 下载RSS订阅为XML文件。
bin/gr_links.py: 从RSS订阅XML中提取所有链接。
bin/gr_discussions.py: 将订阅中的链接分组为具有共同外部链接的讨论。

许可证

使用该数据集需引用相关文献。数据集本身可无限制使用。所有博客文章和其他下载的网页根据合理使用原则共享。所有代码受GNU通用公共许可证版本2保护。

搜集汇总

数据集介绍

构建方式

Bad Science Corpus的构建过程主要依赖于自动化技术，通过从科学家和怀疑论者的博客中收集科学争议性话题的帖子。数据集的核心资源包括RSS订阅源、博客文章存档以及讨论组。RSS订阅源通过Google Reader账户聚合了数百个科学与怀疑论博客的更新，博客文章则涵盖了2009年7月至2012年11月期间的网页存档。讨论组则通过将引用相同外部链接的博客文章归类，形成围绕单一话题的讨论，便于提取争议性观点及其反驳。

特点

Bad Science Corpus的特点在于其专注于科学争议性话题的文本收集，为研究修辞和逻辑论证结构提供了丰富的素材。数据集不仅包含原始博客文章，还通过讨论组的形式将相关文章归类，便于分析争议性观点的形成与反驳过程。此外，数据集的自动化更新机制使其能够持续扩展，保持内容的时效性和多样性。

使用方法

使用Bad Science Corpus时，用户可通过提供的Python脚本访问RSS订阅源并更新数据集。脚本包括下载RSS订阅源的XML文件、提取链接以及将链接归类为讨论组的功能。数据集的使用无需特殊权限，但需遵循GNU通用公共许可证的条款，并在引用时注明相关文献。通过分析数据集中的讨论组，用户可以深入研究科学争议性话题的论证结构及其演变过程。

背景与挑战

背景概述

Bad Science Corpus是由日本东北大学的Eric Nichols等人于2009年创建的一个自动构建的数据集，旨在收集科学家和怀疑论者在博客上发表的关于科学争议话题的帖子。该数据集的核心研究问题是通过分析这些争议性主张及其反驳，支持对修辞和逻辑论证结构的研究。数据集涵盖了2009年7月至2012年11月期间的博客文章，并通过RSS订阅源和网页存档的形式进行存储。该数据集为信息可信度分析提供了重要的资源，推动了科学传播和论证分析领域的研究。

当前挑战

Bad Science Corpus在构建过程中面临多重挑战。首先，数据集的自动构建依赖于从数百个科学/怀疑论博客中提取RSS订阅源，并对其进行分类和存储，这一过程需要处理大量的非结构化数据。其次，数据集的核心目标是从博客文章中提取争议性话题及其反驳，这要求对文本进行复杂的语义分析和主题聚类，以确保讨论的准确性和相关性。此外，由于博客文章的版权归属问题，数据集的使用需遵循合理使用原则，这在一定程度上限制了数据的广泛传播和应用。这些挑战不仅影响了数据集的构建效率，也对后续的研究提出了更高的技术要求。

常用场景

经典使用场景

Bad Science Corpus数据集在科学争议性话题的研究中扮演了重要角色，特别是在分析科学博客中的修辞和逻辑论证结构方面。该数据集通过自动收集科学家和怀疑论者的博客文章，构建了一个包含争议性主张及其反驳的语料库，为研究者提供了一个丰富的资源，用于深入探讨科学传播中的论证模式和逻辑结构。

解决学术问题

该数据集解决了科学传播领域中一个关键问题，即如何系统地分析和理解科学争议性话题中的论证结构。通过提供大量带有争议性主张及其反驳的博客文章，研究者能够利用这些数据进行信息可信度分析，进而揭示科学传播中的逻辑漏洞和修辞策略，推动科学论证研究的深入发展。

衍生相关工作

基于Bad Science Corpus数据集，研究者们开展了一系列相关研究，特别是在科学论证分析和信息可信度评估方面。例如，有研究利用该数据集开发了自动化的论证结构分析工具，能够识别科学博客中的逻辑漏洞和修辞策略。此外，该数据集还启发了其他科学语料库的构建，推动了科学传播研究领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集