Mikimi/MultiLingvAllToxic
收藏Hugging Face2026-04-20 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Mikimi/MultiLingvAllToxic
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ru
- en
license: cc-by-nc-sa-4.0
task_categories:
- text-classification
tags:
- toxicity
- hate-speech
- russian
size_categories:
- 100K<n<1M
---
# MultiLingvAllToxic
Мультиязычный датасет токсичности, содержащий RuAllToxic (русскоязычное ядро) плюс переведённые на русский тексты из Jigsaw, OLID, Davidson, ToxiGen, Stormfront, MentalManip, DeTexD и TRuST. Перевод выполнен моделью Helsinki-NLP/opus-mt-en-ru (MarianMT). Оригинальные тексты сохранены в поле text_original.
## Stats
- **Total:** 287,990
- **Toxic:** 49,623 (17.2%)
- **Non-toxic:** 233,689 (81.1%)
## Sources
| Dataset | Count | % |
|---------|-------|---|
| jigsaw | 158604 | 55.1% |
| ru_inappropriate | 65593 | 22.8% |
| davidson | 24723 | 8.6% |
| rutoxic | 14155 | 4.9% |
| olid | 13136 | 4.6% |
| toxigen | 8940 | 3.1% |
| ru_distorted | 2839 | 1.0% |
提供机构:
Mikimi



