mcapodici/reddit_sydney

Name: mcapodici/reddit_sydney
Creator: mcapodici
Published: 2023-08-06 21:59:36
License: 暂无描述

Hugging Face2023-08-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mcapodici/reddit_sydney

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从Reddit的Sydney子论坛中提取的文本，使用convokit工具进行处理。数据集包含未经过滤的澳大利亚英语，可能包含粗俗、冒犯性内容。数据集的结构为纯文本，用户需要自行进行数据分割。数据集的创建过程通过提供的Python脚本实现，脚本从Reddit子论坛下载数据并提取文本。数据集的发布者未进行任何筛选或注释，因此可能存在偏见和敏感信息。

提供机构：

mcapodici

原始信息汇总

数据集概述

数据集描述

数据集名称： 未提供具体名称
数据来源： Reddit的悉尼子论坛
语言： 英语，主要是澳大利亚英语，包含粗口、亵渎、俚语和可能的冒犯性材料

数据集结构

数据类型： 纯文本
数据分割： 需要用户自行分割

数据集创建

数据收集方法： 使用Convokit库从Reddit的悉尼子论坛收集文本数据，排除标记为"[deleted]"的文本
数据规范化： 未提供详细信息

使用数据集的考虑

社会影响： 由于包含未经过滤的讨论，直接用于训练大型语言模型可能存在风险
偏见： 数据集包含大量偏见，因为它是未经筛选的网络讨论

其他信息

版权信息： Python脚本和数据表示属于公共领域，但原始作者和Reddit可能保留某些权利
数据集是否经过筛选： 未经过筛选

5,000+

优质数据集

54 个

任务类型

进入经典数据集