cathw/reddit_climate_comment
收藏数据集卡片 for Reddit Climate Comment
数据集描述
Reddit Climate Comment 数据集是从专注于气候变化、能源和可再生能源讨论的子版块中提取的评论集合。它包括来自“Climate”、“Energy”、“RenewableEnergy”、“ClimateChange”、“ClimateActionPlan”、“Environment”、“Sustainability”和“Zerowaste”等热门子版块的评论。该数据集提供了关于用户参与度、情感和围绕环境可持续性话题讨论的见解。它是由 Reddit API 创建的,从选定子版块的顶级帖子中收集了总计 80,400 条评论。该数据集涵盖了英语语言的讨论,并作为气候变化和能源领域文本分析的综合资源。
数据集详情
数据集围绕清洁能源和气候变化的讨论展开,通过 Reddit API 从指定子版块的顶级约 1000 篇帖子中提取信息,并使用 Python 库 Praw 于 2024 年 2 月 21 日和 22 日收集。这些子版块包括“Climate”、“Energy”、“RenewableEnergy”和“ClimateChange”。数据集收集了每个帖子下的评论和回复。精选子版块名称的选择是通过评估子版块对能源和气候变化的关联性以及子版块社区的规模(由加入的 Reddit 用户数量衡量)来确定的。
在数据集中,“Climate”子版块类别下有 894 篇独特帖子,3,463 条独特评论和 7,913 条独特回复(社区中有 184k 用户);“ClimateChange”子版块类别下有 787 篇独特帖子,3,376 条独特评论和 7,657 条独特回复(社区中有 89k 用户);“Energy”子版块类别下有 958 篇独特帖子,6,919 条独特评论和 14,247 条独特回复(社区中有 181k 用户);“Environment”子版块类别下有 964 篇独特帖子,9,042 条独特评论和 28,063 条独特回复(社区中有 1,561k 用户);“RenewableEnergy”子版块类别下有 566 篇独特帖子,979 条独特评论和 1,754 条独特回复(社区中有 124k 用户);“Sustainability”子版块类别下有 749 篇独特帖子,2,365 条独特评论和 4,806 条独特回复(社区中有 571k 用户);“ClimateActionPlan”子版块类别下有 663 篇独特帖子,1,324 条独特评论和 2,613 条独特回复(社区中有 89k 用户);“ZeroWaste”子版块类别下有 969 篇独特帖子,5,259 条独特评论和 13,347 条独特回复(社区中有 1,082k 用户)。
总共,所有子版块有 6,650 篇独特帖子。在数据收集过程中,时间戳从原始数据的 Unix 时间戳(自纪元以来的秒数)转换为 UTC 日期时间对象。输出被转换为 CSV 文件并重新组织,以便用户易于访问。
- 精选者: Reddit 用户和 Reddit 平台
- 语言: 英语
- 许可证: MIT
支持的任务
Reddit Climate Comment 数据集旨在用于与气候变化、能源和可再生能源话题讨论相关的各种自然文本分析。
支持的其他任务包括:
- 情感分析:确定与气候、能源和可再生能源相关的评论中表达的情感。
- 主题建模:识别能源和气候讨论中的流行主题和主题。
- 关键词提取:提取在数据集中频繁出现的词汇或短语,以理解气候、能源和可再生能源讨论中最常讨论的概念。
- 用户参与度分析:探索用户参与度指标,如点赞数和评论长度,以辨别社区参与和偏好的模式。
- 比较分析:在专注于“能源”、“可再生能源”、“气候”和“气候变化”的子版块之间进行比较分析。探索这些主题领域之间的对话差异。
- 时间序列分析:通过分析时间模式调查讨论如何演变。识别趋势、高峰活动期和与现实世界事件的相关性。
语言
Reddit Climate Comment 数据集主要包含英语讨论。由于 Reddit 主要是一个英语平台,数据集主要由标准英语编写的评论组成。然而,值得注意的是,数据集可能包括英语的变体,如非正式语言、口语和可能的俚语,这些常见于在线讨论中。
超出范围的使用
虽然 Reddit Climate Comment 数据集提供了关于 Reddit 上围绕气候变化、能源和可再生能源话题讨论的有价值见解,但有一些超出范围的使用需要考虑:
- 数据集不应被用于根据其评论识别或定位个别 Reddit 用户。
- 研究人员和分析师在使用数据集时应遵守道德准则并尊重 Reddit 的服务条款。使用数据集进行的任何研究或分析应优先考虑用户隐私,尊重社区指南,并避免有害或恶意的行动。
数据集结构
此 JSON 示例代表了数据集的一部分示例。这种嵌套结构允许在特定子版块社区和个别帖子中高效导航和分析帖子、评论和回复。
json { "id": "1006cei", "post_title": "Amazing Water Filter Invention", "post_author": "User123", "post_body": "Check out this incredible water filter!", "post_url": "https://example.com/water_filter", "post_pic": "https://example.com/images/water_filter.jpg", "subreddit": "inventions", "post_timestamp": "2023-01-01T12:00:00Z", "post_upvotes": 123, "post_permalink": "/r/inventions/comments/1006cei/amazing_water_filter_invention/", "comments": { "CommentID": ["abc123", "def456"], "CommentAuthor": ["User456", "User789"], "CommentBody": ["This is awesome!", "How does it work?"], "CommentTimestamp": ["2023-01-01T12:30:00Z", "2023-01-01T13:00:00Z"], "CommentUpvotes": [5, 7], "CommentPermalink": ["/r/inventions/comments/1006cei/amazing_water_filter_invention/abc123/", "/r/inventions/comments/1006cei/amazing_water_filter_invention/def456/"], "replies": [ { "ReplyID": ["xyz987", "pqr654"], "ReplyAuthor": ["User123", "User789"], "ReplyBody": ["Thank you!", "The filter uses a combination of activated carbon and ceramic membranes to remove impurities from water."], "ReplyTimestamp": ["2023-01-01T12:45:00Z", "2023-01-01T13:15:00Z"], "ReplyUpvotes": [10, 3], "ReplyPermalink": ["/r/inventions/comments/1006cei/amazing_water_filter_invention/abc123/xyz987/", "/r/inventions/comments/1006cei/amazing_water_filter_invention/def456/pqr654/"] } ] } }
数据集包括以下字段:
json id: string - 帖子的唯一标识符。 post_title: string - 帖子的标题。 post_author: string - 发布帖子的作者用户名。 post_body: string - 帖子的正文/内容。 post_url: string - 帖子的 URL。 post_pic: Image - 与帖子关联的图片。 subreddit: string - 帖子发布的子版块。 post_timestamp: string - 帖子发布的时间戳。 post_upvotes: int32 - 帖子收到的点赞数。 post_permalink: string - 帖子的永久链接。 comments: Sequence - 与帖子关联的评论序列。
- CommentID: string - 评论的唯一标识符。
- CommentAuthor: string - 评论作者的用户名。
- CommentBody: string - 评论的内容/正文。
- CommentTimestamp: string - 评论发布的时间戳。
- CommentUpvotes: int32 - 评论收到的点赞数。
- CommentPermalink: string - 评论的永久链接。
- replies: Sequence - 对评论的回复序列。
- ReplyID: string - 回复的唯一标识符。
- ReplyAuthor: string - 回复作者的用户名。
- ReplyBody: string - 回复的内容/正文。
- ReplyTimestamp: string - 回复发布的时间戳。
- ReplyUpvotes: int32 - 回复收到的点赞数。
- ReplyPermalink: string - 回复的永久链接。
数据集创建
精选理由
- 对气候变化和能源话语的研究兴趣:对公众话语和态度



