five

d0rj/rudetoxifier_data_detox

收藏
Hugging Face2023-06-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/d0rj/rudetoxifier_data_detox
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个来自[d0rj/rudetoxifier_data](https://huggingface.co/datasets/d0rj/rudetoxifier_data)的有毒评论子集,这些评论已经通过[s-nlp/ruT5-base-detox](https://huggingface.co/s-nlp/ruT5-base-detox)模型进行了去毒处理。数据集包含文本、毒性评分和去毒后的文本三个特征,分为训练集和测试集,分别包含31407和10000个例子。数据集的总大小为10914843字节,下载大小为6182785字节。数据集适用于文本到文本生成任务,主要针对俄语,属于单语言数据集,标签包括毒性和风格转换。

数据集信息: 特征字段: - 字段名:文本(text),数据类型:字符串(string) - 字段名:毒性评分(toxic),数据类型:双精度浮点数(float64) - 字段名:去毒后文本(detox),数据类型:字符串(string) 数据集划分: - 划分集名称:训练集(train),字节数:8268013,样本数量:31407 - 划分集名称:测试集(test),字节数:2646830,样本数量:10000 下载大小:6182785 字节 数据集总大小:10914843 字节 许可证:MIT 许可证 任务类别:文本到文本生成(text2text-generation) 语言:俄语(ru) 多语言属性:单语言(monolingual) 标签:毒性检测(toxicity)、风格迁移(style-transfer) 可读名称:RuDetoxifier 数据 - 去毒版本 样本规模分类:10K<n<100K 源数据集:d0rj/rudetoxifier_data # rudetoxifier_data_detox 本数据集为源数据集[d0rj/rudetoxifier_data](https://huggingface.co/datasets/d0rj/rudetoxifier_data)中的有毒评论子集,新增了由[s-nlp/ruT5-base-detox](https://huggingface.co/s-nlp/ruT5-base-detox)生成的去毒后文本列。
提供机构:
d0rj
原始信息汇总

数据集概述

基本信息

  • 名称: RuDetoxifier data - Detoxed
  • 许可证: MIT
  • 语言: 俄语 (ru)
  • 多语言性: 单语种
  • 标签:
    • 毒性
    • 风格转换

数据结构

  • 特征:
    • text: 文本,数据类型为字符串
    • toxic: 毒性,数据类型为浮点数
    • detox: 解毒,数据类型为字符串

数据分割

  • 训练集:
    • 示例数量: 31407
    • 字节数: 8268013
  • 测试集:
    • 示例数量: 10000
    • 字节数: 2646830

数据大小

  • 下载大小: 6182785字节
  • 数据集大小: 10914843字节
  • 规模类别: 10K<n<100K

任务类别

  • 文本到文本生成

来源数据集

  • d0rj/rudetoxifier_data
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作