five

Den4ikAI/gibberish_dataset

收藏
Hugging Face2024-01-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Den4ikAI/gibberish_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - text-classification language: - ru size_categories: - 10K<n<100K --- Виды текстового мусора в датасете: 1. Лицо на клавиатуре. (ойшойвщф фващощфащшгй0ш шйждыфл) - мусор выглядит как случайно набранные слова. Собрать такой мусор довольно просто. Нужно рандомно генерировать "слова" различной длины и с некоторой вероятностью вставлять знаки препинания между словами и в конце предложения. 2. Набор несвязных слов. (замок двойка иван кванты чат). Чаще всего является набором ключевых слов на каком-то сайте, деталями интерфейса. Генерация подобного мусора тоже не сложна. Берем предложения из корпусов (в моем случае librusec и web_public отсюда) токенизируем, перемешиваем токены и все. 3. Тексты с содержанием грамматических ошибок, ошибок в смысле слов или любые синтаксические отклонения, из-за которых предложение теряет связный смысл. (ученик учится в школа). Данный тип текстов генерируется с помощью случайного склонения данного слова. 4. Нейросетевой бред. Этот класс мусора похож на предыдущий, но не всегда заключается в неверных склонениях. (колонок настроен для лиц через 18 лет, в бильярдном кадре перекатывать) Blogpost: [link](https://t.me/den4ikresearch/9)
提供机构:
Den4ikAI
原始信息汇总

数据集概述

许可证

  • Apache 2.0

任务类别

  • 文本分类

语言

  • 俄语

数据规模

  • 10K<n<100K

数据集中的文本垃圾类型

  1. 键盘输入垃圾

    • 表现为随机输入的单词。生成方法:随机生成不同长度的“单词”,并以一定概率在单词间和句子末尾插入标点符号。
  2. 不连贯单词组合

    • 通常是网站上的关键词集合或界面细节。生成方法:从语料库(如librusec和web_public)中提取句子,进行分词,然后随机打乱词序。
  3. 含有语法错误的文本

    • 包括语法错误、词义错误或任何导致句子失去连贯性的语法偏差。生成方法:随机改变单词的词形。
  4. 神经网络生成的不连贯文本

    • 类似于前一类,但不仅限于错误的词形变化。生成方法:通过神经网络生成看似合理但不连贯的文本。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作