Ženščina Dagestana parallel corpus

github2023-07-20 更新2024-05-31 收录

下载链接：

https://github.com/LingConLab/zhenshchina_dagestana_magazine_parallel_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

基于Woman of Dagestan杂志的平行语料库，该杂志以7种语言出版，包括Avar、Dargin、Kumyk、Lak、Lezgian、Russian和Tabasaran，各语言版本共享相同的故事、栏目和主题。

本数据集源于《达吉斯坦妇女》杂志的平行语料库，该杂志采用Avar、Dargin、Kumyk、Lak、Lezgian、Russian及Tabasaran七种语言出版，各语言版本均呈现相同的故事、栏目与主题。

创建时间：

2023-07-17

原始信息汇总

数据集概述

数据集名称

"Ženščina Dagestana" (英文："Woman of Dagestan") 平行语料库

数据集内容

该数据集包含一本名为"Ženščina Dagestana"的杂志，该杂志以7种语言出版，包括：

Avar
Dargin
Kumyk
Lak
Lezgian
Russian
Tabasaran

这些不同语言版本的杂志共享相同的故事、栏目和主题。

数据集文件

gorjanka_magazine_scrapping.R：用于创建7种语言的文件夹，解析杂志档案的HTML页面，并下载相应语言版本的PDF文件。
text_extraction_tesseract.ipynb：包含基于tesseract的OCR脚本，将杂志的PDF文件转换为.txt文件，并收集OCR处理后的文本到一个表格中，以平行方式展示每页的内容。
parallel_texts_table.csv 和 parallel_texts_table.xlsx：这两个文件是.ipynb文件代码的产物，包含了所有文本的平行展示，具体内容包括：
- row_id：表格中的行ID
- issue：统一的问题ID，如"YYYY_N.pdf.txt"，其中YYYY代表出版年份，N代表卷号
- page：杂志中的页码
- line：OCR处理后的文本文件中的行号
- rus,avar,kumyk,lezg,tabas,darg,lak：相应语言版本的文本行
- all_matching：布尔变量，指示该行是否在所有语言中相同，便于跳过不感兴趣的信息块。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于达吉斯坦共和国出版的《Ženščina Dagestana》杂志，该杂志以七种语言发行，包括阿瓦尔语、达尔金语、库梅克语、拉克语、列兹金语、俄语和塔巴萨兰语。通过使用R脚本从杂志的HTML页面中抓取PDF文件，并利用Tesseract OCR技术将PDF转换为文本文件，最终生成平行语料库。新刊物的发布将逐步添加到数据集中，确保数据的持续更新。

特点

该数据集的特点在于其多语言平行文本的丰富性，涵盖了达吉斯坦地区的七种主要语言。数据集以表格形式呈现，每一行代表一个文本片段，并标注了其在各语言中的对应内容。此外，数据集还包含一个布尔变量`all_matching`，用于标识某一行是否在所有语言中完全匹配，便于用户快速筛选出感兴趣的文本片段。这种结构化的数据形式为多语言研究提供了极大的便利。

使用方法

用户可以通过访问GitHub仓库获取数据集文件，包括R脚本、Jupyter Notebook和生成的CSV/Excel表格。R脚本用于抓取杂志的PDF文件，而Jupyter Notebook则用于执行OCR操作并生成平行文本表格。用户可以根据需要调整脚本参数，提取特定语言或特定年份的文本。生成的表格可以直接用于多语言对比分析、机器翻译模型训练等研究任务。

背景与挑战

背景概述

《Ženščina Dagestana》平行语料库是一个多语言数据集，源自达吉斯坦共和国出版的《Ženščina Dagestana》杂志。该杂志以七种语言发行，包括阿瓦尔语、达尔金语、库梅克语、拉克语、列兹金语、俄语和塔巴萨兰语。该数据集的创建旨在收集并整理这些多语言版本的杂志内容，构建一个平行语料库，以便于跨语言研究和应用。该数据集由相关研究人员通过自动化脚本和OCR技术从杂志的PDF文件中提取文本，并将其组织成平行文本表格。这一数据集为研究达吉斯坦地区的多语言现象、语言翻译和跨文化传播提供了重要的资源。

当前挑战

《Ženščina Dagestana》平行语料库的构建面临多重挑战。首先，多语言文本的平行对齐是一个复杂的问题，尤其是在不同语言的语法结构和表达方式存在显著差异的情况下。其次，OCR技术在处理多语言文本时，尤其是对于非拉丁字母的语言，识别准确率可能较低，导致文本提取过程中出现错误。此外，杂志内容的动态更新要求数据集能够持续扩展，这对数据管理和维护提出了更高的要求。最后，如何确保平行文本的一致性和完整性，尤其是在多语言版本之间存在差异时，也是一个需要解决的难题。

常用场景

经典使用场景

在语言学和计算语言学领域，'Ženščina Dagestana'平行语料库被广泛用于多语言文本对齐和翻译研究。该数据集提供了达吉斯坦共和国七种语言的平行文本，研究者可以利用这些数据进行跨语言信息检索、机器翻译模型的训练与评估，以及语言对比分析。通过该语料库，研究者能够深入探讨不同语言之间的相似性与差异性，尤其是在多语言环境下的语言使用模式。

衍生相关工作

基于'Ženščina Dagestana'平行语料库，研究者已开展多项经典工作。例如，有研究利用该数据集开发了针对达吉斯坦地区低资源语言的机器翻译模型，显著提升了翻译质量。此外，该语料库还被用于多语言文本对齐算法的优化，推动了跨语言信息检索技术的发展。一些研究还基于该数据集进行了语言接触与语言演变的研究，揭示了达吉斯坦多语言环境下的语言动态变化规律。

数据集最近研究