Russoязычные NLP датасеты

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/Koziev/NLP_Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

此仓库中存放了我创建的用于解决俄语文本不同任务的数据集，通常是自动创建，有时会进行手动编辑。数据集包括对话和回复交换，其中对话来自18+的图像板，存在一些损坏的对话，因为自动过滤它们非常困难。此外，还有从不同娱乐网站收集的约90000个对话，以及从文学作品中提取的对话等。

This repository contains datasets I have created for addressing various tasks related to Russian text, typically generated automatically with occasional manual editing. The datasets include dialogues and reply exchanges, with dialogues sourced from 18+ image boards, some of which are corrupted as automatic filtering is quite challenging. Additionally, there are approximately 90,000 dialogues collected from various entertainment websites, along with dialogues extracted from literary works.

创建时间：

2017-11-06

原始信息汇总

数据集概述

对话数据集

来源: 网络论坛，18+内容，包含损坏的对话。
格式: 分为多个部分，以zip文件格式存储。
评分数据: 对话评分数据，包含相关性和特异性评分，格式为jsonl。

笑话对话数据集

来源: 娱乐网站，约90,000对话。
扩展版本: 提供不同格式的数据集。

清理后的Cornell电影语料库

特点: 包含大量“中途”对话。

文学作品对话数据集

来源: 文学作品及类似来源。
大小: 约400MB。

生成式聊天模型训练代码

用途: 用于训练基于上述数据集的聊天模型。

合成问答对数据集

内容: 包含算术问题的问答对。
扩展版本: 提供更长的对话数据。

预训练模型

模型: 基于上述数据集训练的生成式聊天模型。

短句和词组数据集

用途: 用于训练聊天机器人。
内容: 包含从大型文本库中提取的短句和词组。

句子模板数据集

格式: 包含带有开放名词组的句子模板。
大小: 约2100万句。

词组和非完整句子数据集

内容: 包含各种词组和非完整句子样本。

完整句子数据集

分类: 根据动词的人称和数进行分类。
排序方法: 使用LSA和t-SNE进行排序，或根据KenLM语言模型概率排序。

问题数据集

内容: 包含以第二人称单数形式结尾的问题。

其他数据集

解析: 包含解析后的文本数据，用于解决指代消解问题。
重音数据: 包含重音位置的数据集。
词频统计: 包含词的共同出现频率统计。
人称转换样本: 用于训练聊天机器人的人称转换能力。
问答数据集: 包含基于前提的问答对。
词形还原数据集: 包含词形还原的数据。
NP分块数据集: 包含已分块的NP数据。
其他数据: 包括词根、词形频率等数据。

搜集汇总

数据集介绍

构建方式

该数据集的构建主要通过自动化方法实现，辅以人工校对。具体而言，数据集包括了从不同来源收集的对话和文本片段，如来自匿名论坛的对话、从娱乐网站提取的笑话对话、以及经过清理的Cornell Movie Corpus对话等。这些数据经过自动过滤和评分，以评估对话的相关性和特异性，最终以jsonl格式存储，便于筛选高质量对话。此外，数据集还包括了合成的问题-答案对和经过处理的语法模板，以支持多种自然语言处理任务。

特点

该数据集的显著特点在于其多样性和广泛性。它涵盖了从成人内容到日常对话的多种场景，包括匿名论坛的成人对话、笑话中的对话、以及文学作品中的对话。数据集不仅提供了原始对话文本，还包含了经过评分和标记的对话，便于进行深度分析和模型训练。此外，数据集还包括了多种语法模板和合成数据，支持从基础的词性分析到复杂的对话生成等多种NLP任务。

使用方法

该数据集适用于多种自然语言处理任务，包括但不限于对话生成、对话评分、语法分析和文本分类。用户可以通过下载相应的数据文件，使用Python脚本进行数据处理和模型训练。例如，可以使用提供的train_chitchat_rugpt.py脚本进行对话生成模型的训练，并通过run_chitchat_query.py脚本进行模型测试。此外，数据集中的语法模板和合成数据也可用于训练特定的NLP模型，如语法检测和对话系统。

背景与挑战

背景概述

Russoязычные NLP датасеты是由Koziev创建的一系列用于解决俄语自然语言处理任务的数据集。这些数据集主要用于对话生成、文本分类和语义分析等任务。Koziev通过自动化的方式收集和处理大量俄语文本数据，并进行了手动校正以提高数据质量。这些数据集的创建旨在推动俄语NLP领域的发展，并为研究人员提供丰富的资源。

当前挑战

Russoязычные NLP датасеты在构建过程中面临多个挑战。首先，自动过滤和处理大量俄语文本数据时，难以完全避免错误和噪声。其次，由于俄语的复杂性和多样性，确保数据集的多样性和代表性是一个持续的挑战。此外，数据集的规模和质量对于训练高性能的NLP模型至关重要，因此需要不断优化和扩展数据集以满足日益增长的研究需求。

常用场景

经典使用场景

该数据集的经典使用场景主要集中在俄语自然语言处理（NLP）领域，特别是对话生成和对话质量评估。通过提供大量俄语对话数据，研究者和开发者可以训练对话模型，以生成自然流畅的对话内容。此外，数据集中的对话评分机制为评估对话模型的质量提供了标准化的方法，有助于提升对话系统的交互效果。

解决学术问题

该数据集解决了俄语NLP领域中对话生成和评估的关键问题。通过提供丰富的对话数据和评分机制，它为研究者提供了一个标准化的平台，用于训练和评估对话模型。这不仅推动了对话系统的发展，还为相关学术研究提供了宝贵的资源，促进了俄语NLP技术的进步。

衍生相关工作

基于该数据集，研究者们开发了多种对话生成和评估模型，如基于GPT的俄语对话生成模型和对话质量评估工具。这些工作不仅提升了对话系统的性能，还为其他语言的对话生成研究提供了参考。此外，数据集中的对话数据还被用于多语言对话系统的研究，促进了跨语言对话技术的交流与发展。

以上内容由遇见数据集搜集并总结生成