2tle/korean-curse-filtering-dataset

Name: 2tle/korean-curse-filtering-dataset
Creator: 2tle
Published: 2023-08-31 06:14:02
License: 暂无描述

Hugging Face2023-08-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/2tle/korean-curse-filtering-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit --- # Korean Curse Filtering Dataset ## 데이터셋 수정 요청 - 욕설/비하 표현인데 처리되어 있지 않거나, 욕설/비하 표현이 아닌데 처리되어 있는 경우, Community에 제보 부탁드립니다 :) - 이 외 여러 오류가 있는경우 역시 제보 부탁드립니다. ## 데이터셋 - [2runo/Curse-detection-data](https://github.com/2runo/Curse-detection-data)을 기반으로 문장 내 포함된 욕설/비하 표현 키워드 데이터셋입니다. - `curse_test.txt` 는 기존 데이터셋에서 학습 테스트를 목적으로 1000개만 활용한 데이터셋입니다. - `curse.txt`는 모든 데이터셋으로, 추후 업데이트 예정입니다 ## 기준 - 기반 데이터셋에서 욕설 혹은 비하의 의미가 담긴 문장들에서 욕설 혹은 비하 키워드를 선정하였습니다. ## 데이터셋 구조 문장|욕설목록<br> 각 데이터는 한 줄로 구분되어 있으며, 문장과 욕설 목록은 |로 구분되어 있습니다.<br> 욕설이 포함되어 있지 않은 경우 욕설목록이 없으며, 욕설이 포함되어 있는 경우 ,로 구분짓습니다.

提供机构：

2tle

原始信息汇总

Korean Curse Filtering Dataset

数据集描述

该数据集基于 2runo/Curse-detection-data，用于检测句子中包含的侮辱性或贬低性关键词。
curse_test.txt 是从原始数据集中选取的1000条数据，用于学习测试。
curse.txt 包含所有数据，后续将进行更新。

数据选择标准

从包含侮辱性或贬低性含义的句子中选择侮辱性或贬低性关键词。

数据集结构

每条数据以一行表示，句子与侮辱性关键词列表之间用 | 分隔。
如果句子中不包含侮辱性关键词，则侮辱性关键词列表为空；如果包含，则用 , 分隔多个关键词。

5,000+

优质数据集

54 个

任务类型

进入经典数据集