19世纪奥斯曼和俄罗斯文学与批评文本的多层次多标签文本分类数据集

Name: 19世纪奥斯曼和俄罗斯文学与批评文本的多层次多标签文本分类数据集
Creator: 中东技术大学计算机工程系，博洛尼亚大学现代语言文学与文化系
Published: 2024-07-21 20:14:45
License: 暂无描述

arXiv2024-07-21 更新2024-07-24 收录

下载链接：

https://huggingface.co/nonwestlit

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由中东技术大学和博洛尼亚大学的研究团队精心打造，包含了19世纪奥斯曼土耳其和俄罗斯的文学与批评文本，共计超过3000份文档。数据集通过严格的OCR处理和专家团队的细致标注，形成了多层次的分类结构，涵盖了文学、文化等多个领域。该数据集的创建旨在支持自然语言处理和机器学习领域的研究，特别是针对历史和低资源语言的研究，为相关领域的学者提供了宝贵的资源。

This dataset was meticulously developed by a research team from the Middle East Technical University and the University of Bologna. It contains over 3,000 documents of literary and critical texts from 19th-century Ottoman Turkish and Russian. The dataset underwent rigorous OCR processing and detailed expert annotation, forming a multi-level classification structure that covers multiple domains including literature and culture. Created to support research in the fields of natural language processing (NLP) and machine learning (ML), particularly studies focused on historical and low-resource languages, this dataset provides a valuable resource for scholars in relevant research areas.

提供机构：

中东技术大学计算机工程系，博洛尼亚大学现代语言文学与文化系

创建时间：

2024-07-21

搜集汇总

数据集介绍

构建方式

该数据集的构建方式采取了两个主要步骤：文章的筛选和由人类专家进行标注。文章的筛选从19世纪30年代至1910年代的文学期刊中收集，这些期刊主要来自国家图书馆和帝国图书馆的硬拷贝和软拷贝文本。由于大量的硬拷贝资源，特别是奥斯曼土耳其语，需要将这些文档数字化，以便计算机进行处理。为此，我们制定了一个严格的数字化协议，旨在将实体文章转换为数字内容。这个过程分为两个连续的阶段：光学字符识别（OCR）和数字化文本的校正和细化，以确保与原始内容的真实性。对于奥斯曼土耳其语文档的OCR过程，我们通过Google Lens进行，因为其他OCR程序（如Abbyy和Tesseract）的准确率较低。每个PDF文档页面都转换为图像，并通过Google Cloud自动上传到Google Photos，由档案工作人员进行数字化。数字化文档的校对和修正由负责标注任务的专家团队进行。我们建立了一个具有基于Web的用户界面的系统，用户可以与之交互并相应地标注数字化文档。指定专家团队的成员注册到系统中，每位用户都可以与文档阅读器进行交互，并能够查看输入到OCR流程中的同一文档的原始图像，以减少数字化文本校正阶段的错误。

使用方法

该数据集的使用方法包括但不限于自然语言处理和机器学习领域的各种应用。由于数据集的多层次和多标签结构，研究人员可以针对特定的应用场景训练各种模型，包括自动分类数字化资源，从而在管理数字信息方面提供更高的效率和准确性。此外，由于俄语和奥斯曼数据集主要由文学和评论文本组成，因此它们还具有进行无监督学习的潜力。研究人员可以通过在数据集上进行实验，来评估和比较不同模型的性能，并探索如何在低资源语言环境中提高大型语言模型的泛化能力。

背景与挑战

背景概述

19世纪奥斯曼和俄罗斯文学与批评文本的多层次多标签文本分类数据集由中东技术大学计算机工程系和博洛尼亚大学现代语言、文学和文化系的研究人员共同创建。该数据集包含了19世纪奥斯曼土耳其语和俄语的文学与批评文本，旨在通过多层次多标签的分类方法，对这些历史文本进行深入的语义分析。该数据集是首次应用大型语言模型（LLMs）于此类数据集，这些文本来源于当时的著名文学期刊。为了准确分类，研究人员根据文本的结构和语义属性，构建了一个分类框架，并聘请了人类专家对文章进行分类和标注。该数据集的创建不仅填补了低资源语言研究的空白，也为自然语言处理和机器学习领域的研究提供了宝贵的资源。

当前挑战

该数据集的创建和利用面临着多项挑战。首先，由于数据集涉及历史语言，文本的数字化和校对过程需要大量的人力投入和专业知识。其次，由于历史语言的特殊性和资源稀缺性，大型语言模型在处理这类语言时的性能受到了限制。此外，低资源语言的文本通常缺乏足够的训练数据，导致模型难以进行有效的微调。最后，历史文本的分类和标注往往需要深入的文化和历史背景知识，这给分类任务的准确性带来了挑战。

常用场景

经典使用场景

该数据集主要用于多层次多标签文本分类，特别是在19世纪奥斯曼土耳其语和俄语的文学作品和批评文本上应用大型语言模型（LLMs）。通过对这些文本的结构和语义属性进行分类，研究人员可以利用这些数据集来训练和评估文本分类模型，从而提高模型在低资源语言环境下的泛化性能。

解决学术问题

该数据集解决了低资源语言环境下文本分类的难题。由于数据稀缺、词义表示不足以及文本内容偏颇等问题，大型语言模型在低资源语言上的效果受到限制。该数据集提供了经过精心组织和标注的文本，为研究人员提供了一个有价值的资源，以改善低资源语言上的文本分类效果。

实际应用

该数据集的实际应用场景包括历史和低资源语言的数字化资源自动化分类。通过使用该数据集进行模型训练，研究人员可以开发出能够对历史文献进行自动分类的工具，从而提高数字信息管理的效率和准确性。此外，该数据集还可以用于训练适用于特定应用的模型，如对历史文献进行自动分类、情感分析、主题建模等。

数据集最近研究