2tle/korean-curse-filtering-dataset
收藏Hugging Face2023-08-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/2tle/korean-curse-filtering-dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
---
# Korean Curse Filtering Dataset
## 데이터셋 수정 요청
- 욕설/비하 표현인데 처리되어 있지 않거나, 욕설/비하 표현이 아닌데 처리되어 있는 경우, Community에 제보 부탁드립니다 :)
- 이 외 여러 오류가 있는경우 역시 제보 부탁드립니다.
## 데이터셋
- [2runo/Curse-detection-data](https://github.com/2runo/Curse-detection-data)을 기반으로 문장 내 포함된 욕설/비하 표현 키워드 데이터셋입니다.
- `curse_test.txt` 는 기존 데이터셋에서 학습 테스트를 목적으로 1000개만 활용한 데이터셋입니다.
- `curse.txt`는 모든 데이터셋으로, 추후 업데이트 예정입니다
## 기준
- 기반 데이터셋에서 욕설 혹은 비하의 의미가 담긴 문장들에서 욕설 혹은 비하 키워드를 선정하였습니다.
## 데이터셋 구조
문장|욕설목록<br>
각 데이터는 한 줄로 구분되어 있으며, 문장과 욕설 목록은 |로 구분되어 있습니다.<br>
욕설이 포함되어 있지 않은 경우 욕설목록이 없으며, 욕설이 포함되어 있는 경우 ,로 구분짓습니다.
提供机构:
2tle
原始信息汇总
Korean Curse Filtering Dataset
数据集描述
- 该数据集基于 2runo/Curse-detection-data,用于检测句子中包含的侮辱性或贬低性关键词。
curse_test.txt是从原始数据集中选取的1000条数据,用于学习测试。curse.txt包含所有数据,后续将进行更新。
数据选择标准
- 从包含侮辱性或贬低性含义的句子中选择侮辱性或贬低性关键词。
数据集结构
- 每条数据以一行表示,句子与侮辱性关键词列表之间用 | 分隔。
- 如果句子中不包含侮辱性关键词,则侮辱性关键词列表为空;如果包含,则用 , 分隔多个关键词。



