Reddit Marijuana Legalization Corpus
收藏github2022-10-13 更新2024-05-31 收录
下载链接:
https://github.com/BabakHemmatian/Marijuana_Legalization_Corpus_Study
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从2008年到2019年Reddit上关于大麻合法化讨论的评论,共有3059959条评论。每条评论记录了原始内容、索引、所属子论坛、发布月份和年份,以及从TextBlob和Vader包中提取的情感值。
This dataset comprises 3,059,959 comments from Reddit discussions on the legalization of cannabis from 2008 to 2019. Each comment records the original content, index, subreddit, month and year of posting, as well as sentiment values extracted from the TextBlob and Vader packages.
创建时间:
2019-06-02
原始信息汇总
数据集概述
数据集名称
Reddit Discourse about Marijuana Legalization
数据集内容
- 数据库文件: reddit_comments_database.db,位于Google Drive的datasets文件夹中。
- 数据记录数: 3059959条评论。
数据结构
-
Comments表:
- 字段:
- original_comm (Text)
- original_indices (Integer)
- subreddit (Text)
- month (Integer)
- year (Integer)
- t_sentiments (Text)
- v_sentiments (Text)
- sentiments (Real)
- attitude (Text)
- persuasion (Text)
- votes (Integer)
- author (Text)
- training (Integer)
- topic_0...topic_49 (Real)
- attitude_confidence (REAL)
- persuasion_confidence (REAL)
- inferred_attitude (Integer)
- inferred_attitude_weight (REAL)
- inferred_persuasion (Integer)
- inferred_persuasion_weight (REAL)
- 字段:
-
classified_comments表:
- 字段:
- doc_id (Integer)
- clauses (Text)
- genericity_pred (Text)
- genericity_softmax (Text)
- aspect_pred (Text)
- aspect_softmax (Text)
- boundedness_pred (Text)
- boundedness_softmax (Text)
- ne_tags (Text)
- 字段:
数据获取
- 访问Google Drive链接并请求数据集访问权限。
数据使用
- 描述使用案例,团队成员将联系共享资源。
搜集汇总
数据集介绍

构建方式
Reddit Marijuana Legalization Corpus的构建基于Reddit平台上自2008年以来关于大麻合法化的讨论数据。数据集通过从Pushshift的Reddit评论数据集中提取和解析原始评论,结合了时间、情感、态度、说服力等多维度信息。数据集的构建过程涉及无监督和有监督的机器学习方法,特别是通过LDA模型提取主题分布,并结合TextBlob和Vader包进行情感分析。此外,数据集还包含了人工标注的态度和说服力评分,以及基于神经网络的推断结果。
特点
该数据集的特点在于其多维度的注释信息,涵盖了评论的情感、态度、说服力、主题分布等多个方面。每条评论不仅包含原始文本,还附带了时间戳、子论坛信息、情感值、态度评分、说服力评分等详细属性。数据集还通过LDA模型提取了50个主题的贡献度,并提供了基于神经网络的推断结果,如态度和说服力的置信度。这些丰富的注释信息为研究大麻合法化讨论的时空趋势、情感变化以及语言特征提供了坚实的基础。
使用方法
使用Reddit Marijuana Legalization Corpus时,用户首先需要通过Google Drive申请访问权限,并简要描述使用场景。数据集以SQL数据库文件形式提供,用户可以通过标准的SQL查询语句提取所需数据。数据集的结构清晰,包含两个主要表格:Comments表和classified_comments表。前者存储了评论的原始信息和情感、态度等属性,后者则包含了评论的从句分析结果,如泛化性、动态性和边界性预测。用户可以根据研究需求,结合Spacy和NLTK等工具进行进一步的自然语言处理和分析。
背景与挑战
背景概述
Reddit Marijuana Legalization Corpus 数据集由布朗大学的Sloman实验室和AI实验室联合开发,旨在通过无监督和有监督的机器学习方法,分析自2008年以来Reddit平台上关于大麻合法化的讨论趋势。该数据集的核心研究问题聚焦于大麻合法化议题的公众舆论演变,特别是通过语言学属性(如泛化性、基本方面和有限性)对讨论内容进行逐句分析。该数据集不仅为大麻合法化的社会影响研究提供了丰富的语料资源,还为自然语言处理领域的情感分析和主题建模提供了重要的数据支持。
当前挑战
Reddit Marijuana Legalization Corpus 数据集在构建过程中面临多重挑战。首先,数据来源的多样性和复杂性使得数据清洗和预处理成为一项艰巨任务,特别是在处理Reddit评论的非结构化文本时,需要克服语言表达的多样性和噪声干扰。其次,情感分析和态度标注的准确性依赖于人工标注和机器学习模型的结合,而标注者之间的分歧可能导致数据标签的不一致性。此外,主题建模(如LDA模型)在处理大规模文本数据时,计算资源和时间成本较高,且主题的可解释性仍需进一步优化。这些挑战不仅反映了数据集构建的技术难度,也凸显了在复杂社会议题研究中数据质量和分析方法的双重重要性。
常用场景
经典使用场景
Reddit Marijuana Legalization Corpus 数据集广泛应用于社交媒体文本分析领域,特别是在研究大麻合法化议题的公众舆论动态方面。通过分析Reddit平台上自2008年以来的评论数据,研究者能够追踪大麻合法化讨论的时序变化,揭示公众态度的演变趋势。该数据集的使用场景包括但不限于情感分析、主题建模以及语言风格研究,为社会科学和计算语言学领域提供了丰富的研究素材。
实际应用
在实际应用中,Reddit Marijuana Legalization Corpus 数据集被广泛用于政策制定和公众舆论监测。例如,政府机构和政策研究者可以通过分析该数据集,了解公众对大麻合法化的态度变化,从而制定更具针对性的政策。此外,媒体和市场营销机构也可以利用该数据集进行情感分析,优化其传播策略,以更好地与目标受众互动。
衍生相关工作
该数据集衍生了一系列经典研究工作,特别是在社交媒体文本分析和公众舆论研究领域。例如,基于该数据集的LDA主题建模方法被广泛应用于其他社会议题的讨论分析中,如同性婚姻合法化等。此外,该数据集的生成框架还被用于构建其他社交媒体语料库,推动了跨领域研究的深入发展。这些衍生工作不仅扩展了数据集的应用范围,也为相关领域的研究提供了新的方法论支持。
以上内容由遇见数据集搜集并总结生成



