five

2tle/korean-curse-filtering-dataset

收藏
Hugging Face2023-08-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/2tle/korean-curse-filtering-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit --- # Korean Curse Filtering Dataset ## 데이터셋 수정 요청 - 욕설/비하 표현인데 처리되어 있지 않거나, 욕설/비하 표현이 아닌데 처리되어 있는 경우, Community에 제보 부탁드립니다 :) - 이 외 여러 오류가 있는경우 역시 제보 부탁드립니다. ## 데이터셋 - [2runo/Curse-detection-data](https://github.com/2runo/Curse-detection-data)을 기반으로 문장 내 포함된 욕설/비하 표현 키워드 데이터셋입니다. - `curse_test.txt` 는 기존 데이터셋에서 학습 테스트를 목적으로 1000개만 활용한 데이터셋입니다. - `curse.txt`는 모든 데이터셋으로, 추후 업데이트 예정입니다 ## 기준 - 기반 데이터셋에서 욕설 혹은 비하의 의미가 담긴 문장들에서 욕설 혹은 비하 키워드를 선정하였습니다. ## 데이터셋 구조 문장|욕설목록<br> 각 데이터는 한 줄로 구분되어 있으며, 문장과 욕설 목록은 |로 구분되어 있습니다.<br> 욕설이 포함되어 있지 않은 경우 욕설목록이 없으며, 욕설이 포함되어 있는 경우 ,로 구분짓습니다.
提供机构:
2tle
原始信息汇总

Korean Curse Filtering Dataset

数据集描述

  • 该数据集基于 2runo/Curse-detection-data,用于检测句子中包含的侮辱性或贬低性关键词。
  • curse_test.txt 是从原始数据集中选取的1000条数据,用于学习测试。
  • curse.txt 包含所有数据,后续将进行更新。

数据选择标准

  • 从包含侮辱性或贬低性含义的句子中选择侮辱性或贬低性关键词。

数据集结构

  • 每条数据以一行表示,句子与侮辱性关键词列表之间用 | 分隔。
  • 如果句子中不包含侮辱性关键词,则侮辱性关键词列表为空;如果包含,则用 , 分隔多个关键词。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作