five

s-nlp/ru_paradetox_toxicity

收藏
Hugging Face2023-09-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/s-nlp/ru_paradetox_toxicity
下载链接
链接失效反馈
官方服务:
资源简介:
ParaDetox数据集是一个专注于俄语文本毒性检测的集合,通过Yandex.Toloka平台收集。数据集包含6,354个样本,其中1,506个为毒性示例,标签指示文本是否为毒性。数据收集过程包括生成同义句、内容保存检查和毒性检查三个步骤,本数据集主要关注毒性检查的结果。
提供机构:
s-nlp
原始信息汇总

ParaDetox: Detoxification with Parallel Data (Russian)

数据集概述

  • 许可证: openrail++
  • 任务类别: 文本分类
  • 语言: 俄语

数据集内容

  • 任务描述: 本数据集包含毒性任务的标记结果,来自俄罗斯ParaDetox数据集的收集流程。
  • 收集流程:
    • 任务1: 生成同义句,要求用户在不改变原意的情况下消除句子中的毒性。
    • 任务2: 内容保持检查,展示生成的同义句及其原始版本,询问用户它们是否意义相近。
    • 任务3: 毒性检查,检查工作者是否成功移除了毒性。
  • 数据详情:
    • 包含内容: 本仓库特别包含任务3: 毒性检查的结果,其中样本的标记置信度大于等于90%。
    • 输入与标签: 输入为文本,标签显示文本是否具有毒性。
    • 样本数量: 总计6,354个样本,其中毒性样本为1,506对。

引用信息

@inproceedings{logacheva-etal-2022-study, title = "A Study on Manual and Automatic Evaluation for Text Style Transfer: The Case of Detoxification", author = "Logacheva, Varvara and Dementieva, Daryna and Krotova, Irina and Fenogenova, Alena and Nikishina, Irina and Shavrina, Tatiana and Panchenko, Alexander", booktitle = "Proceedings of the 2nd Workshop on Human Evaluation of NLP Systems (HumEval)", month = may, year = "2022", address = "Dublin, Ireland", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.humeval-1.8", doi = "10.18653/v1/2022.humeval-1.8", pages = "90--101", abstract = "...", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作