Online discussion and evidence dataset

github2019-06-25 更新2024-05-31 收录

下载链接：

https://github.com/kixlab/suggestbot_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集源自互联网辩论语料库(IAC) 2.0，包含10,000篇帖子，这些帖子中的主张可以通过事实进行验证。数据集为每篇帖子提供了可验证句子的注释以及支持或反驳每个注释的事实信息。

This dataset is derived from the Internet Argument Corpus (IAC) 2.0, comprising 10,000 posts whose claims can be verified by facts. The dataset provides annotations for verifiable sentences within each post, along with factual information that either supports or refutes each annotation.

创建时间：

2019-05-27

原始信息汇总

数据集概述

数据集名称

Online discussion and evidence dataset

数据集来源

源自Internet Argument Corpus (IAC) 2.0

数据集内容

包含10,000个帖子，每个帖子中的声明可以通过事实进行验证。
每个帖子都带有可验证句子的标注，以及支持或反驳这些标注的事实信息。

数据集结构

分为三个文件和一个文件夹：
- posts.tsv
  - 字段：post_id, post_topic, post_text, post_infoneed
- arguments.tsv
  - 字段：arg_id, arg_text, arg_guideline, post_id, post_topic
- additionalinfo.tsv
  - 字段：info_id, info_text, info_url, info_query, info_type, info_stance, info_status, arg_id, arg_text, arg_guideline, post_id, post_topic
- sourcedocs文件夹
  - 包含三个子文件夹：rawpage, untidypage, tidy
    - rawpage：存储.html格式的源页面
    - untidypage：存储.txt格式的解析源页面，使用Html2text包解析
    - tidy：存储.txt格式的解析源页面，使用Html2text和Newspaper3k包解析

数据集特点

每个文件和文件夹都详细记录了与帖子、论点和附加信息相关的ID、文本、类型和状态等信息，便于数据分析和验证。

搜集汇总

数据集介绍

构建方式

Online discussion and evidence dataset 采自 Internet Argument Corpus (IAC) 2.0 数据集，从中提炼出包含可验证事实声明的 10,000 条帖子。数据集对每篇帖子中的可验证句子进行注释，并标注出支持或反驳每个注释的事实信息。

特点

该数据集由三个文件（pharagraph.tsv、arguments.tsv、additionalinfo.tsv）和一个文件夹（sourcedocs）组成，涵盖了讨论帖子、论据、附加信息及其来源文档。数据集特别标注了信息的立场（支持或反驳）、类型（如证词、统计数据、轶事）以及来源页面的解析状态。

使用方法

用户可通过解析三个 TSV 文件来获取帖子内容、论据及其相关事实信息，以及附加信息的详细来源。sourcedocs 文件夹中的子文件夹提供了不同格式下的页面源码，便于研究者根据需要获取原始或解析后的页面内容。

背景与挑战

背景概述

Online discussion and evidence dataset，源自Internet Argument Corpus (IAC) 2.0数据集，包含了10,000篇可验证事实的言论帖子。该数据集的核心在于对每篇帖子中的可验证句子进行注释，并提供支持或反驳每个注释的事实信息。此数据集由多个文件和文件夹组成，分别存储了帖子、论点、额外信息及其来源文档等内容。其创建旨在为网络讨论中的事实核查提供支持，对自然语言处理、信息检索以及辩论分析等领域产生了重要影响。

当前挑战

该数据集在构建过程中面临的挑战主要包括：如何精确识别并提取帖子里的事实性论点；如何为每个论点匹配恰当的事实信息以进行验证；以及如何处理和存储大量的网络源文档，保证信息的可追溯性和准确性。在研究领域问题上，数据集需处理的挑战是如何有效支持对网络讨论中事实真实性的判断，以及在多变的网络语境下，如何保持注释和事实信息的有效性和可靠性。

常用场景

经典使用场景

在互联网时代，信息的真实性与准确性至关重要。Online discussion and evidence dataset数据集为此提供了一个丰富的资源，其经典使用场景在于对网络论坛中的声明进行验证。该数据集包含了10,000篇包含可验证声明的帖子，并对每篇帖子中的可验证句子进行了注释，同时提供了支持或反驳这些声明的实际信息。

衍生相关工作

基于该数据集，研究者们已经开展了一系列相关工作，包括开发自动事实核查系统、分析在线讨论中的论证策略以及研究信息传播的社会心理学机制。这些衍生工作进一步拓展了数据集的应用范围，推动了相关领域的学术进步。

数据集最近研究