d0rj/rudetoxifier_data_detox
收藏Hugging Face2023-06-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/d0rj/rudetoxifier_data_detox
下载链接
链接失效反馈官方服务:
资源简介:
这是一个来自[d0rj/rudetoxifier_data](https://huggingface.co/datasets/d0rj/rudetoxifier_data)的有毒评论子集,这些评论已经通过[s-nlp/ruT5-base-detox](https://huggingface.co/s-nlp/ruT5-base-detox)模型进行了去毒处理。数据集包含文本、毒性评分和去毒后的文本三个特征,分为训练集和测试集,分别包含31407和10000个例子。数据集的总大小为10914843字节,下载大小为6182785字节。数据集适用于文本到文本生成任务,主要针对俄语,属于单语言数据集,标签包括毒性和风格转换。
数据集信息:
特征字段:
- 字段名:文本(text),数据类型:字符串(string)
- 字段名:毒性评分(toxic),数据类型:双精度浮点数(float64)
- 字段名:去毒后文本(detox),数据类型:字符串(string)
数据集划分:
- 划分集名称:训练集(train),字节数:8268013,样本数量:31407
- 划分集名称:测试集(test),字节数:2646830,样本数量:10000
下载大小:6182785 字节
数据集总大小:10914843 字节
许可证:MIT 许可证
任务类别:文本到文本生成(text2text-generation)
语言:俄语(ru)
多语言属性:单语言(monolingual)
标签:毒性检测(toxicity)、风格迁移(style-transfer)
可读名称:RuDetoxifier 数据 - 去毒版本
样本规模分类:10K<n<100K
源数据集:d0rj/rudetoxifier_data
# rudetoxifier_data_detox
本数据集为源数据集[d0rj/rudetoxifier_data](https://huggingface.co/datasets/d0rj/rudetoxifier_data)中的有毒评论子集,新增了由[s-nlp/ruT5-base-detox](https://huggingface.co/s-nlp/ruT5-base-detox)生成的去毒后文本列。
提供机构:
d0rj
原始信息汇总
数据集概述
基本信息
- 名称: RuDetoxifier data - Detoxed
- 许可证: MIT
- 语言: 俄语 (ru)
- 多语言性: 单语种
- 标签:
- 毒性
- 风格转换
数据结构
- 特征:
text: 文本,数据类型为字符串toxic: 毒性,数据类型为浮点数detox: 解毒,数据类型为字符串
数据分割
- 训练集:
- 示例数量: 31407
- 字节数: 8268013
- 测试集:
- 示例数量: 10000
- 字节数: 2646830
数据大小
- 下载大小: 6182785字节
- 数据集大小: 10914843字节
- 规模类别: 10K<n<100K
任务类别
- 文本到文本生成
来源数据集
- d0rj/rudetoxifier_data



