mcapodici/reddit_sydney
收藏Hugging Face2023-08-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mcapodici/reddit_sydney
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从Reddit的Sydney子论坛中提取的文本,使用convokit工具进行处理。数据集包含未经过滤的澳大利亚英语,可能包含粗俗、冒犯性内容。数据集的结构为纯文本,用户需要自行进行数据分割。数据集的创建过程通过提供的Python脚本实现,脚本从Reddit子论坛下载数据并提取文本。数据集的发布者未进行任何筛选或注释,因此可能存在偏见和敏感信息。
该数据集是从Reddit的Sydney子论坛中提取的文本,使用convokit工具进行处理。数据集包含未经过滤的澳大利亚英语,可能包含粗俗、冒犯性内容。数据集的结构为纯文本,用户需要自行进行数据分割。数据集的创建过程通过提供的Python脚本实现,脚本从Reddit子论坛下载数据并提取文本。数据集的发布者未进行任何筛选或注释,因此可能存在偏见和敏感信息。
提供机构:
mcapodici
原始信息汇总
数据集概述
数据集描述
- 数据集名称: 未提供具体名称
- 数据来源: Reddit的悉尼子论坛
- 语言: 英语,主要是澳大利亚英语,包含粗口、亵渎、俚语和可能的冒犯性材料
数据集结构
- 数据类型: 纯文本
- 数据分割: 需要用户自行分割
数据集创建
- 数据收集方法: 使用Convokit库从Reddit的悉尼子论坛收集文本数据,排除标记为"[deleted]"的文本
- 数据规范化: 未提供详细信息
使用数据集的考虑
- 社会影响: 由于包含未经过滤的讨论,直接用于训练大型语言模型可能存在风险
- 偏见: 数据集包含大量偏见,因为它是未经筛选的网络讨论
其他信息
- 版权信息: Python脚本和数据表示属于公共领域,但原始作者和Reddit可能保留某些权利
- 数据集是否经过筛选: 未经过筛选



