five

mcapodici/reddit_sydney

收藏
Hugging Face2023-08-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mcapodici/reddit_sydney
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从Reddit的Sydney子论坛中提取的文本,使用convokit工具进行处理。数据集包含未经过滤的澳大利亚英语,可能包含粗俗、冒犯性内容。数据集的结构为纯文本,用户需要自行进行数据分割。数据集的创建过程通过提供的Python脚本实现,脚本从Reddit子论坛下载数据并提取文本。数据集的发布者未进行任何筛选或注释,因此可能存在偏见和敏感信息。

该数据集是从Reddit的Sydney子论坛中提取的文本,使用convokit工具进行处理。数据集包含未经过滤的澳大利亚英语,可能包含粗俗、冒犯性内容。数据集的结构为纯文本,用户需要自行进行数据分割。数据集的创建过程通过提供的Python脚本实现,脚本从Reddit子论坛下载数据并提取文本。数据集的发布者未进行任何筛选或注释,因此可能存在偏见和敏感信息。
提供机构:
mcapodici
原始信息汇总

数据集概述

数据集描述

  • 数据集名称: 未提供具体名称
  • 数据来源: Reddit的悉尼子论坛
  • 语言: 英语,主要是澳大利亚英语,包含粗口、亵渎、俚语和可能的冒犯性材料

数据集结构

  • 数据类型: 纯文本
  • 数据分割: 需要用户自行分割

数据集创建

  • 数据收集方法: 使用Convokit库从Reddit的悉尼子论坛收集文本数据,排除标记为"[deleted]"的文本
  • 数据规范化: 未提供详细信息

使用数据集的考虑

  • 社会影响: 由于包含未经过滤的讨论,直接用于训练大型语言模型可能存在风险
  • 偏见: 数据集包含大量偏见,因为它是未经筛选的网络讨论

其他信息

  • 版权信息: Python脚本和数据表示属于公共领域,但原始作者和Reddit可能保留某些权利
  • 数据集是否经过筛选: 未经过筛选
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作