vluz/Tox
收藏Hugging Face2023-08-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vluz/Tox
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Kaggle上Toxic Comment Classification Challenge竞赛的训练数据集的清理版本。清理过程包括移除多余的空格、换行符、非打印字符、标点符号(除了撇号)、HTML标签、网页链接、数字,并将文本转换为小写。此外,数据集还包含一个名为alt_format的目录,其中包含用于教程的替代格式。
该数据集是Kaggle上Toxic Comment Classification Challenge竞赛的训练数据集的清理版本。清理过程包括移除多余的空格、换行符、非打印字符、标点符号(除了撇号)、HTML标签、网页链接、数字,并将文本转换为小写。此外,数据集还包含一个名为alt_format的目录,其中包含用于教程的替代格式。
提供机构:
vluz
原始信息汇总
数据集概述
数据集名称
A cleaned up version of train dataset from kaggle, the Toxic Comment Classification Challenge
数据集来源
- 原始数据集来自Kaggle的Toxic Comment Classification Challenge竞赛。
- 原始数据集链接:Kaggle竞赛页面
数据集处理
数据集经过以下处理步骤:
- 移除多余的空格和新行。
- 移除非打印字符。
- 移除除撇号外的标点符号。
- 移除HTML标签和网页链接。
- 移除数字。
- 转换为小写。
数据集文件
alt_format/train.csv:此文件作为训练集用于Tox示例。
许可证
数据集采用CC0-1.0许可证。



