Den4ikAI/gibberish_dataset
收藏Hugging Face2024-01-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Den4ikAI/gibberish_dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- text-classification
language:
- ru
size_categories:
- 10K<n<100K
---
Виды текстового мусора в датасете:
1. Лицо на клавиатуре. (ойшойвщф фващощфащшгй0ш шйждыфл) - мусор выглядит как случайно набранные слова. Собрать такой мусор довольно просто. Нужно рандомно генерировать "слова" различной длины и с некоторой вероятностью вставлять знаки препинания между словами и в конце предложения.
2. Набор несвязных слов. (замок двойка иван кванты чат). Чаще всего является набором ключевых слов на каком-то сайте, деталями интерфейса. Генерация подобного мусора тоже не сложна. Берем предложения из корпусов (в моем случае librusec и web_public отсюда) токенизируем, перемешиваем токены и все.
3. Тексты с содержанием грамматических ошибок, ошибок в смысле слов или любые синтаксические отклонения, из-за которых предложение теряет связный смысл. (ученик учится в школа). Данный тип текстов генерируется с помощью случайного склонения данного слова.
4. Нейросетевой бред. Этот класс мусора похож на предыдущий, но не всегда заключается в неверных склонениях. (колонок настроен для лиц через 18 лет, в бильярдном кадре перекатывать)
Blogpost: [link](https://t.me/den4ikresearch/9)
提供机构:
Den4ikAI
原始信息汇总
数据集概述
许可证
- Apache 2.0
任务类别
- 文本分类
语言
- 俄语
数据规模
- 10K<n<100K
数据集中的文本垃圾类型
-
键盘输入垃圾:
- 表现为随机输入的单词。生成方法:随机生成不同长度的“单词”,并以一定概率在单词间和句子末尾插入标点符号。
-
不连贯单词组合:
- 通常是网站上的关键词集合或界面细节。生成方法:从语料库(如librusec和web_public)中提取句子,进行分词,然后随机打乱词序。
-
含有语法错误的文本:
- 包括语法错误、词义错误或任何导致句子失去连贯性的语法偏差。生成方法:随机改变单词的词形。
-
神经网络生成的不连贯文本:
- 类似于前一类,但不仅限于错误的词形变化。生成方法:通过神经网络生成看似合理但不连贯的文本。



