Ganz00/reddit-comments-cleaned-for-tg
收藏Hugging Face2024-07-16 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/Ganz00/reddit-comments-cleaned-for-tg
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从`fddemarco/pushshift-reddit-comments`数据集中提取并经过清洗的子集,特别适用于训练语言模型。清洗步骤包括移除特殊字符和过滤短评论,以确保数据集包含丰富且上下文相关的文本。数据集包含Reddit评论的正文、创建时间、评分和所属子版块等信息。
This dataset is a curated and cleaned subset of the `fddemarco/pushshift-reddit-comments` dataset, specifically designed for training and fine-tuning language models. It includes richer and more coherent text by removing special characters and filtering out comments shorter than 200 characters, aiding in building more robust and contextually aware language models.
提供机构:
Ganz00
原始信息汇总
数据集概述
数据集摘要
该数据集是 fddemarco/pushshift-reddit-comments 数据集的精选和清理子集。原始数据集包含大量 Reddit 评论,经过过滤和精炼,以提高其适合训练语言模型的适用性。具体来说,该子集进行了以下预处理步骤:
- 特殊字符移除: 移除了可能干扰语言建模过程的某些特殊字符。
- 长度过滤: 排除了短于 200 个字符的评论,以确保数据集主要包含内容丰富且具有上下文意义的文本。
数据集创建
该数据集通过应用一系列清理步骤从 fddemarco/pushshift-reddit-comments 数据集中派生出来,旨在提高其质量以用于语言模型训练。主要步骤包括:
- 特殊字符移除: 移除了
@、#等非字母数字符号,以标准化文本数据。 - 评论长度过滤: 仅保留了 200 个字符或更长的评论。此过滤步骤确保数据集包含更有可能为训练语言模型提供有意义上下文的评论。
使用
该清理子集特别适合训练和微调语言模型。通过专注于较长的评论并移除多余的特殊字符,数据集有助于模型从更丰富和更连贯的文本中学习。研究人员和开发者可以使用此数据集构建更健壮和上下文感知的语言模型。
许可
该数据集继承了原始 fddemarco/pushshift-reddit-comments 数据集的许可条款。



