Debate Dataset
收藏github2015-06-09 更新2024-05-31 收录
下载链接:
https://github.com/minghui/Debate-DataSets_NAACL13
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于研究用户关系从在线讨论中挖掘,通过情感分析和概率矩阵分解技术。数据集包含来自Wikipedia、CreateDebate和PoliticalForum的讨论数据,用于分析和检测小组讨论中的用户关系。
This dataset is utilized for investigating user relationships extracted from online discussions through sentiment analysis and probabilistic matrix factorization techniques. It encompasses discussion data sourced from Wikipedia, CreateDebate, and PoliticalForum, aimed at analyzing and detecting user relationships within group discussions.
创建时间:
2013-11-26
原始信息汇总
数据集概述
数据集名称
- Debate-DataSets_NAACL13
数据集来源
- 数据集由SMU Text Mining Group/Singapore Management University/Peking University在2013年提供。
数据集用途
- 该数据集用于研究目的,无任何保证。
引用信息
- 引用文献:Minghui Qiu, Liu Yang and Jing Jiang. Mining User Relations from Online Discussions using Sentiment Analysis and Probabilistic Matrix Factorization. In Proceedings of the 2013 Conference of North American Chapter of Association for Computational Linguistics: Human Language Technologies (NAACL 2013).
数据集内容
-
文件夹结构
- sents: 包含所有讨论线程的句子。
- 每个文件代表一个线程,每行代表一个帖子。
- 帖子格式:"source target url post_id sentence"
- labels: 包含每个线程的用户标签。
- sents: 包含所有讨论线程的句子。
-
数据集来源
- 原始数据集包含:
- 117个Wikipedia讨论(目录:wikipedia)
- 30个辩论(目录:createdebate)
- 12个政治讨论(目录:politicalforum)
- 原始数据集包含:
数据集贡献者
- Amjad Abu-Jbara, Pradeep Dasigi, Mona Diab, and Dragomir R. Radev. 2012. Subgroup detection in ideological discussions. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pages 399–409.
搜集汇总
数据集介绍

构建方式
Debate Dataset的构建采取了对Wikipedia讨论、createdebate.com辩论及politicalforum.com政治讨论的广泛收集,涵盖了117个Wikipedia讨论话题、30个createdebate.com辩论话题以及12个politicalforum.com政治讨论话题。每个讨论话题被细分为多个线程,每个线程包含多个帖子,每个帖子又包括发言者、接收者、URL、帖子ID以及发言内容。该数据集的构建旨在为在线讨论中的用户关系挖掘提供支持。
特点
该数据集的主要特点在于其全面覆盖了不同平台上的讨论内容,不仅包含多元化的讨论话题,而且对每个讨论线程中的用户交互进行了详细的记录。此外,数据集提供了用户标签,有利于研究人员对用户角色和关系的深入研究。遵循开源协议,该数据集在研究使用中无需额外费用,但需正确引用相关论文。
使用方法
使用Debate Dataset时,研究人员可依据文件夹结构分别访问'sents'和'labels'。'sents'文件夹中包含了所有讨论线程的发言记录,而'labels'文件夹则包含了各个线程的用户标签信息。通过这些信息,研究人员可以开展用户关系的挖掘与分析,为情感分析和概率矩阵分解等算法的应用提供基础数据。在使用数据集的基础上,应按照版权要求正确引用相关研究论文,以尊重原作者的知识产权。
背景与挑战
背景概述
Debate Dataset,由SMU Text Mining Group、新加坡管理大学及北京大学联合发布,旨在为自然语言处理领域提供研究资源。该数据集的创建源于2013年,由Minghui Qiu、Liu Yang和Jing Jiang在NAACL 2013会议上发表的论文,其核心研究问题在于利用情感分析和概率矩阵分解技术挖掘在线讨论中的用户关系。数据集的发布,对于理解网络讨论中的用户行为和关系构建具有显著影响,为后续相关研究提供了坚实基础。
当前挑战
在数据集构建过程中,研究者面临了多方面的挑战。首先,如何准确标记和区分在线讨论中的用户关系,这涉及到了情感分析的准确性和细粒度问题。其次,数据集的多样性和规模也提出了构建上的挑战,包括从不同论坛和平台收集数据,以及处理和整合不同格式的数据。此外,由于原始数据集包含了来自不同来源的讨论,如何确保数据的一致性和质量,也是构建过程中的一大挑战。
常用场景
经典使用场景
在自然语言处理与情感分析领域,Debate Dataset被广泛用于挖掘在线讨论中的用户关系。该数据集记录了在线辩论中各线程的发言,每条发言都标注有发言者、接收者、URL、发言ID和内容,这为研究者提供了深入分析用户交互模式与情感倾向的丰富资源。
解决学术问题
Debate Dataset有效地解决了如何从在线讨论中提取用户关系以及情感倾向的学术难题。通过使用此数据集,研究者能够运用情感分析与概率矩阵分解方法来识别用户之间的互动关系,进而深化对在线社区动态的理解。
衍生相关工作
基于Debate Dataset,研究者们衍生出了一系列相关工作,包括但不限于情感分析模型的改进、用户行为预测算法的优化以及社交网络分析的新方法,这些都极大地推动了相关领域的学术进步和技术发展。
以上内容由遇见数据集搜集并总结生成



