five

OpenCo7/UpVoteWeb

收藏
Hugging Face2024-07-17 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/OpenCo7/UpVoteWeb
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是2024年Reddit上帖子和评论的过滤集合,主要用于研究和教育目的。它包含了来自不同子论坛的公共网络数据,提供了该时期平台上讨论的快照。数据集经过处理,匿名化了帖子和评论中的任何个人信息,特别是电子邮件地址和IP地址,确保个人隐私的同时保持数据的完整性和上下文。数据集支持多种自然语言处理任务,如文本分类、语言建模、情感分析和主题建模。数据集的主要语言是英语,但也可能包含其他语言的帖子,反映了平台的多样化用户群体。

This dataset is a filtered collection of posts and comments from Reddit in the year 2024, prepared for research and educational purposes. It includes public web data from various subreddits, providing a snapshot of the discussions happening on the platform during this period. The dataset has been processed to anonymize any personal information found in the posts and comments, specifically email addresses and IP addresses, ensuring the privacy of individuals while maintaining the integrity and context of the data.
提供机构:
OpenCo7
原始信息汇总

数据集概述

该数据集是从Reddit在2024年收集的帖子和评论的筛选集合,旨在用于研究和教育目的。数据集包括来自各种子版块的公开网络数据,提供了该平台在此期间讨论的快照。数据集经过处理,以匿名化帖子中的个人信息,特别是电子邮件地址和IP地址,确保个人隐私的同时保持数据的完整性和上下文。

支持的任务和排行榜

该数据集可用于多种自然语言处理(NLP)任务,包括:

  • 文本分类:根据情感、主题或子版块对评论和帖子进行分类。
  • 语言建模:训练语言模型以理解和生成对话文本。
  • 情感分析:分析不同子版块和主题下评论和帖子的情感。
  • 主题建模:识别和建模帖子中讨论的主题。

语言

数据集的主要语言是英语,因为大多数用户使用英语发帖。然而,数据集中也可能包含其他语言的帖子,反映了平台的多样化用户群体。

数据集结构

数据实例

每个数据实例代表一个帖子或评论,并包含以下字段:

  • id:评论或帖子的唯一标识符。
  • parent_id:父评论或帖子的标识符。前缀定义如下:
    • t5:子版块
    • t3:帖子
    • t1:评论
  • text:评论或帖子的内容,已匿名化电子邮件地址和IP地址。
  • url:Reddit上原始线程的URL。
  • date:评论或帖子的UTC时间戳。
  • language:检测到的文本语言。
  • language_score:语言检测的置信度分数。
  • token_count:由GPT-2分词器确定的文本中的标记数。
  • score:评论或帖子的分数(赞成票减去反对票)。
  • subreddit:评论或帖子所在的子版块。
  • author:评论或帖子的作者用户名。
  • media_urls:评论或帖子中包含的任何多媒体链接的数组。

数据字段

  • id:字符串
  • parent_id:字符串
  • text:字符串
  • url:字符串
  • date:字符串
  • language:字符串
  • language_score:浮点数
  • token_count:整数
  • score:整数
  • subreddit:字符串
  • author:字符串
  • media_urls:数组

数据预处理

数据集经过以下预处理步骤以确保数据的质量和隐私:

  1. 个人信息匿名化:电子邮件地址和IP地址已被替换为[EMAIL]和[IP]占位符。
  2. 语言检测:使用FastText检测每个文本实例的语言并分配置信度分数。
  3. 分词:使用GPT-2分词器对文本实例进行分词以提供标记数。
  4. NSFW过滤:数据集已过滤掉标记为NSFW的内容,利用Reddit的NSFW元数据进行过滤。

数据集创建

数据来源

该数据集是从Reddit在2024年收集的帖子和评论的筛选集合。我们使用FastText生成了语言和language_score注释,并使用gpt2分词器生成了token_count注释。

个人信息和敏感信息

数据集已处理以匿名化个人信息,特别是电子邮件地址和IP地址,确保个人隐私的同时保持数据的完整性和上下文。

使用数据的注意事项

数据集的社会影响

通过发布此数据集,我们旨在将此开发资源提供给社区。

偏见的讨论

通过在URL级别上应用过滤,努力减少数据集中NSFW和有毒内容的数量。

附加信息

许可信息

数据集在Open Data Commons Attribution License (ODC-By) v1.0下发布。其可用性并不意味着邀请使用任何信息用于任何非法或非法目的,或超出研究或教育目的的范围。

未来工作

我们计划继续构建高质量、结构化的数据集,用于AI/ML研究,并将在未来的迭代中继续改进UpVoteWeb。

引用信息

如果您在研究或项目中使用此数据集,请按如下方式引用:

@dataset{UpVoteWeb, title = {UpVoteWeb-24-600M}, year = {2024}, publisher = {OpenCo}, url = {https://huggingface.co/datasets/OpenCo7/UpVoteWeb} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作