d0rj/rudetoxifier_data
收藏Hugging Face2023-06-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/d0rj/rudetoxifier_data
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: toxic
dtype: float64
splits:
- name: train
num_bytes: 27459998
num_examples: 163187
- name: test
num_bytes: 1762288
num_examples: 10000
download_size: 16406619
dataset_size: 29222286
license: mit
task_categories:
- text-classification
- text2text-generation
language:
- ru
multilinguality:
- monolingual
tags:
- toxicity
- style-transfer
pretty_name: RuDetoxifier data
size_categories:
- 100K<n<1M
source_datasets:
- original
paperswithcode_id: methods-for-detoxification-of-texts-for-the
---
# rudetoxifier_data
## Dataset Description
- **Homepage:** https://github.com/s-nlp/rudetoxifier
- **Repository:** https://github.com/s-nlp/rudetoxifier
- **Paper:** [Methods for Detoxification of Texts for the Russian Language](https://arxiv.org/abs/2105.09052)
- **Point of Contact:** [Daryna Dementieva](mailto:daryna.dementieva@skoltech.ru)
Huggingface copy of Github repo with dataset.
提供机构:
d0rj
原始信息汇总
数据集概述
基本信息
- 数据集名称: RuDetoxifier data
- 数据集大小: 100K<n<1M
- 数据集来源: 原始数据
- 语言: 俄语
- 多语言性: 单语种
特征信息
- 特征名称及类型:
- text: string
- toxic: float64
数据分割
- 训练集:
- 示例数量:163187
- 数据大小:27459998字节
- 测试集:
- 示例数量:10000
- 数据大小:1762288字节
下载信息
- 下载大小: 16406619字节
- 数据集总大小: 29222286字节
许可证
- 许可证类型: MIT
任务类别
- 文本分类
- 文本到文本生成
标签
- 毒性
- 风格转换



