five

vluz/Tox

收藏
Hugging Face2023-08-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vluz/Tox
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Kaggle上Toxic Comment Classification Challenge竞赛的训练数据集的清理版本。清理过程包括移除多余的空格、换行符、非打印字符、标点符号(除了撇号)、HTML标签、网页链接、数字,并将文本转换为小写。此外,数据集还包含一个名为alt_format的目录,其中包含用于教程的替代格式。

该数据集是Kaggle上Toxic Comment Classification Challenge竞赛的训练数据集的清理版本。清理过程包括移除多余的空格、换行符、非打印字符、标点符号(除了撇号)、HTML标签、网页链接、数字,并将文本转换为小写。此外,数据集还包含一个名为alt_format的目录,其中包含用于教程的替代格式。
提供机构:
vluz
原始信息汇总

数据集概述

数据集名称

A cleaned up version of train dataset from kaggle, the Toxic Comment Classification Challenge

数据集来源

  • 原始数据集来自Kaggle的Toxic Comment Classification Challenge竞赛。
  • 原始数据集链接:Kaggle竞赛页面

数据集处理

数据集经过以下处理步骤:

  • 移除多余的空格和新行。
  • 移除非打印字符。
  • 移除除撇号外的标点符号。
  • 移除HTML标签和网页链接。
  • 移除数字。
  • 转换为小写。

数据集文件

  • alt_format/train.csv:此文件作为训练集用于Tox示例。

许可证

数据集采用CC0-1.0许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作