辩论数据集

Name: 辩论数据集
Creator: 康奈尔大学
Published: 2019-06-27 03:38:02
License: 暂无描述

arXiv2019-06-27 更新2024-06-21 收录

下载链接：

http://www.cs.cornell.edu/ esindurmus/

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由康奈尔大学创建，包含78,376场辩论，涵盖2007年至2017年间的数据。数据集不仅记录了辩论内容，还详细记录了参与者的个人信息，如教育、收入、宗教信仰等，以及他们在辩论平台上的活动记录。创建过程涉及从辩论网站爬取数据，并严格遵守网站条款。该数据集主要用于研究在线辩论中用户特征对辩论结果的影响，旨在解决如何通过用户特征预测辩论成功的问题。

This dataset was created by Cornell University, consisting of 78,376 debates spanning the years 2007 to 2017. In addition to documenting the content of the debates, the dataset also maintains detailed records of participants' personal information, including their educational background, income, religious beliefs and other relevant details, as well as their activity logs on the debate platform. The dataset was constructed by scraping data from debate websites in strict compliance with the terms of service of the respective platforms. This dataset is primarily used to research the impact of user characteristics on debate outcomes in online debates, aiming to solve the problem of how to predict debate success based on user traits.

提供机构：

康奈尔大学

创建时间：

2019-06-27

搜集汇总

数据集介绍

构建方式

辩论数据集通过从debate.org网站上爬取2007年10月至2017年11月期间的78,376场辩论构建而成。该数据集不仅包含了辩论的文本内容，还详细记录了45,348名参与者的用户信息，包括年龄、性别、教育背景、种族、政治和宗教信仰等。此外，数据集还涵盖了用户在平台上的活动记录，如辩论胜负、投票和评论等，以及用户对48个争议话题的立场。这种全面的用户信息收集方式使得研究者能够深入分析用户特征对辩论结果的影响。

特点

辩论数据集的显著特点在于其丰富的用户信息和详细的辩论评估机制。每场辩论都包含多轮次的辩论内容、评论和投票，投票者根据多个标准（如说服力、辩论行为、引用资源的可靠性等）对辩论者进行评分。这种细粒度的评估方式使得研究者可以从多个角度分析辩论的质量。此外，数据集中的用户信息不仅限于基本的人口统计数据，还包括用户的政治立场、宗教信仰和活动记录，这为研究用户特征对辩论效果的影响提供了宝贵的数据支持。

使用方法

辩论数据集可用于多种研究任务，包括但不限于预测辩论胜负、分析用户特征对辩论结果的影响以及探讨语言特征在辩论中的作用。研究者可以通过构建机器学习模型，利用数据集中的用户特征和语言特征来预测辩论的胜负。此外，数据集还可用于研究用户在辩论平台上的行为变化和意见演变。通过结合用户特征和语言特征，研究者可以更全面地理解在线辩论中的说服策略和用户互动模式。

背景与挑战

背景概述

辩论数据集由康奈尔大学的Esin Durmus和Claire Cardie创建，涵盖了2007年10月至2017年11月期间从debate.org收集的78,376场辩论。该数据集不仅包含辩论文本，还提供了详尽的用户信息，包括参与者的背景、信仰、活动记录等。这一数据集的创建旨在填补现有辩论数据集在用户特征分析方面的空白，特别是探讨用户特质如何影响辩论结果。通过这一数据集，研究者能够深入分析用户特征与辩论成功之间的关系，为自然语言处理和计算社会科学领域提供了新的研究视角。

当前挑战

辩论数据集面临的挑战主要集中在两个方面。首先，如何准确捕捉和量化用户特质对辩论结果的影响，这是一个复杂的领域问题。其次，在数据构建过程中，如何确保用户信息的全面性和准确性，尤其是在涉及敏感信息如宗教、政治立场等时，数据的隐私和伦理问题尤为突出。此外，数据集的规模和多样性也带来了处理和分析上的技术挑战，尤其是在结合用户特征和语言特征进行综合分析时，需要高效的算法和模型支持。

常用场景

经典使用场景

辩论数据集的经典使用场景在于分析在线辩论中用户特征与语言特征对辩论结果的影响。通过该数据集，研究者可以深入探讨辩论者的经验、成功历史、社会互动以及与观众的相似性如何影响辩论的胜负。此外，数据集还提供了丰富的用户背景信息，如年龄、性别、教育程度、宗教信仰等，这些信息为研究辩论策略的有效性提供了宝贵的资源。

衍生相关工作

基于辩论数据集，研究者已开展了一系列相关工作，如Durmus和Cardie（2018）研究了先前信念对辩论说服力的影响。此外，还有研究探讨了用户个性特征对辩论结果的影响，如Lukin等人（2017）分析了OCEAN人格特质对观众感知说服力的作用。这些研究不仅扩展了辩论数据集的应用范围，还为理解在线辩论中的复杂互动提供了新的理论和方法。

数据集最近研究