Den4ikAI/gibberish_dataset

Name: Den4ikAI/gibberish_dataset
Creator: Den4ikAI
Published: 2024-01-07 18:20:25
License: 暂无描述

Hugging Face2024-01-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Den4ikAI/gibberish_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - text-classification language: - ru size_categories: - 10K<n<100K --- Виды текстового мусора в датасете: 1. Лицо на клавиатуре. (ойшойвщф фващощфащшгй0ш шйждыфл) - мусор выглядит как случайно набранные слова. Собрать такой мусор довольно просто. Нужно рандомно генерировать "слова" различной длины и с некоторой вероятностью вставлять знаки препинания между словами и в конце предложения. 2. Набор несвязных слов. (замок двойка иван кванты чат). Чаще всего является набором ключевых слов на каком-то сайте, деталями интерфейса. Генерация подобного мусора тоже не сложна. Берем предложения из корпусов (в моем случае librusec и web_public отсюда) токенизируем, перемешиваем токены и все. 3. Тексты с содержанием грамматических ошибок, ошибок в смысле слов или любые синтаксические отклонения, из-за которых предложение теряет связный смысл. (ученик учится в школа). Данный тип текстов генерируется с помощью случайного склонения данного слова. 4. Нейросетевой бред. Этот класс мусора похож на предыдущий, но не всегда заключается в неверных склонениях. (колонок настроен для лиц через 18 лет, в бильярдном кадре перекатывать) Blogpost: [link](https://t.me/den4ikresearch/9)

提供机构：

Den4ikAI

原始信息汇总

数据集概述

许可证

Apache 2.0

任务类别

文本分类

语言

俄语

数据规模

10K<n<100K

数据集中的文本垃圾类型

键盘输入垃圾：
- 表现为随机输入的单词。生成方法：随机生成不同长度的“单词”，并以一定概率在单词间和句子末尾插入标点符号。
不连贯单词组合：
- 通常是网站上的关键词集合或界面细节。生成方法：从语料库（如librusec和web_public）中提取句子，进行分词，然后随机打乱词序。
含有语法错误的文本：
- 包括语法错误、词义错误或任何导致句子失去连贯性的语法偏差。生成方法：随机改变单词的词形。
神经网络生成的不连贯文本：
- 类似于前一类，但不仅限于错误的词形变化。生成方法：通过神经网络生成看似合理但不连贯的文本。

5,000+

优质数据集

54 个

任务类型

进入经典数据集