s-nlp/ru_paradetox_toxicity
收藏Hugging Face2023-09-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/s-nlp/ru_paradetox_toxicity
下载链接
链接失效反馈官方服务:
资源简介:
ParaDetox数据集是一个专注于俄语文本毒性检测的集合,通过Yandex.Toloka平台收集。数据集包含6,354个样本,其中1,506个为毒性示例,标签指示文本是否为毒性。数据收集过程包括生成同义句、内容保存检查和毒性检查三个步骤,本数据集主要关注毒性检查的结果。
提供机构:
s-nlp
原始信息汇总
ParaDetox: Detoxification with Parallel Data (Russian)
数据集概述
- 许可证: openrail++
- 任务类别: 文本分类
- 语言: 俄语
数据集内容
- 任务描述: 本数据集包含毒性任务的标记结果,来自俄罗斯ParaDetox数据集的收集流程。
- 收集流程:
- 任务1: 生成同义句,要求用户在不改变原意的情况下消除句子中的毒性。
- 任务2: 内容保持检查,展示生成的同义句及其原始版本,询问用户它们是否意义相近。
- 任务3: 毒性检查,检查工作者是否成功移除了毒性。
- 数据详情:
- 包含内容: 本仓库特别包含任务3: 毒性检查的结果,其中样本的标记置信度大于等于90%。
- 输入与标签: 输入为文本,标签显示文本是否具有毒性。
- 样本数量: 总计6,354个样本,其中毒性样本为1,506对。
引用信息
@inproceedings{logacheva-etal-2022-study, title = "A Study on Manual and Automatic Evaluation for Text Style Transfer: The Case of Detoxification", author = "Logacheva, Varvara and Dementieva, Daryna and Krotova, Irina and Fenogenova, Alena and Nikishina, Irina and Shavrina, Tatiana and Panchenko, Alexander", booktitle = "Proceedings of the 2nd Workshop on Human Evaluation of NLP Systems (HumEval)", month = may, year = "2022", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.humeval-1.8", doi = "10.18653/v1/2022.humeval-1.8", pages = "90--101", abstract = "...", }



