OpenCo7/UpVoteWeb
收藏数据集概述
该数据集是从Reddit在2024年收集的帖子和评论的筛选集合,旨在用于研究和教育目的。数据集包括来自各种子版块的公开网络数据,提供了该平台在此期间讨论的快照。数据集经过处理,以匿名化帖子中的个人信息,特别是电子邮件地址和IP地址,确保个人隐私的同时保持数据的完整性和上下文。
支持的任务和排行榜
该数据集可用于多种自然语言处理(NLP)任务,包括:
- 文本分类:根据情感、主题或子版块对评论和帖子进行分类。
- 语言建模:训练语言模型以理解和生成对话文本。
- 情感分析:分析不同子版块和主题下评论和帖子的情感。
- 主题建模:识别和建模帖子中讨论的主题。
语言
数据集的主要语言是英语,因为大多数用户使用英语发帖。然而,数据集中也可能包含其他语言的帖子,反映了平台的多样化用户群体。
数据集结构
数据实例
每个数据实例代表一个帖子或评论,并包含以下字段:
- id:评论或帖子的唯一标识符。
- parent_id:父评论或帖子的标识符。前缀定义如下:
- t5:子版块
- t3:帖子
- t1:评论
- text:评论或帖子的内容,已匿名化电子邮件地址和IP地址。
- url:Reddit上原始线程的URL。
- date:评论或帖子的UTC时间戳。
- language:检测到的文本语言。
- language_score:语言检测的置信度分数。
- token_count:由GPT-2分词器确定的文本中的标记数。
- score:评论或帖子的分数(赞成票减去反对票)。
- subreddit:评论或帖子所在的子版块。
- author:评论或帖子的作者用户名。
- media_urls:评论或帖子中包含的任何多媒体链接的数组。
数据字段
- id:字符串
- parent_id:字符串
- text:字符串
- url:字符串
- date:字符串
- language:字符串
- language_score:浮点数
- token_count:整数
- score:整数
- subreddit:字符串
- author:字符串
- media_urls:数组
数据预处理
数据集经过以下预处理步骤以确保数据的质量和隐私:
- 个人信息匿名化:电子邮件地址和IP地址已被替换为[EMAIL]和[IP]占位符。
- 语言检测:使用FastText检测每个文本实例的语言并分配置信度分数。
- 分词:使用GPT-2分词器对文本实例进行分词以提供标记数。
- NSFW过滤:数据集已过滤掉标记为NSFW的内容,利用Reddit的NSFW元数据进行过滤。
数据集创建
数据来源
该数据集是从Reddit在2024年收集的帖子和评论的筛选集合。我们使用FastText生成了语言和language_score注释,并使用gpt2分词器生成了token_count注释。
个人信息和敏感信息
数据集已处理以匿名化个人信息,特别是电子邮件地址和IP地址,确保个人隐私的同时保持数据的完整性和上下文。
使用数据的注意事项
数据集的社会影响
通过发布此数据集,我们旨在将此开发资源提供给社区。
偏见的讨论
通过在URL级别上应用过滤,努力减少数据集中NSFW和有毒内容的数量。
附加信息
许可信息
数据集在Open Data Commons Attribution License (ODC-By) v1.0下发布。其可用性并不意味着邀请使用任何信息用于任何非法或非法目的,或超出研究或教育目的的范围。
未来工作
我们计划继续构建高质量、结构化的数据集,用于AI/ML研究,并将在未来的迭代中继续改进UpVoteWeb。
引用信息
如果您在研究或项目中使用此数据集,请按如下方式引用:
@dataset{UpVoteWeb, title = {UpVoteWeb-24-600M}, year = {2024}, publisher = {OpenCo}, url = {https://huggingface.co/datasets/OpenCo7/UpVoteWeb} }




