dialectal_varieties

github2024-04-05 更新2024-05-31 收录

下载链接：

https://github.com/senisioi/dialectal_varieties

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含英伦群岛议会方言变体的语料库及其法语翻译，每个文档包含约2000字，66个句子，数据点以#%分割，存储在`*.chnk`文件中。

A corpus containing dialectal variations of parliamentary speeches from the British Isles, along with their French translations. Each document comprises approximately 2000 words and 66 sentences, with data points separated by #% and stored in `*.chnk` files.

创建时间：

2022-02-09

原始信息汇总

数据集概述

数据集名称

Dialectal Varieties

数据集内容

包含欧盟文件。
每份文档包含66个句子，约2000字。
数据文件格式为*.chnk，每行一个数据点，句子通过#%分割。
原始索引存储在*.orig_idx文件中。
打乱后的文档存储在*.shf文件中。

数据集结构

每个测试集包含每个类别的40份文档。
训练集最多包含197份文档（最少为苏格兰，最小的类别）。

数据集目录

corpus/*：由本地和非本地MEP生成的文本目录。
corpus/train_test_split：用于比较不同语言间分类相似性的训练测试分割。
analogies：跨语料库的错位单词的csv文件。
feature_selection：保存不同分类场景下的准确率、F1分数和混淆矩阵的目录。
features：单词和PoS特征列表。
src：源文件目录。

数据集统计

每文档最大句子数：66。
苏格兰块数：237。
英格兰块数：911。
爱尔兰块数：476。
欧盟块数：449。

数据集结果

原始英语数据：

设置	特征	英 vs. 爱	英 vs. 苏	爱 vs. 苏	三向
英语原始	function_words_en	0.9	0.91	0.85	0.8
英语原始	pronouns_en	0.63	0.76	0.69	0.57
英语原始	PoS n-grams	0.91	0.87	0.91	0.83
英语原始	selected_pos_ngrams_en	0.88	0.85	0.86	0.78
英语原始	selected_pos_ngrams_fr	0.82	0.71	0.77	0.64
英语无实体	Word n-grams	0.91	0.89	0.92	0.83

法语人工和机器翻译数据：

设置	特征	英 vs. 爱	英 vs. 苏	爱 vs. 苏	三向
法语翻译	function_words_fr	0.84	0.87	0.78	0.71
法语翻译	pronouns_fr	0.82	0.8	0.72	0.66
法语翻译	PoS n-grams	0.89	0.82	0.76	0.74
法语翻译	selected_pos_ngrams_fr	0.78	0.76	0.62	0.59
法语翻译	selected_pos_ngrams_en	0.8	0.76	0.71	0.59
法语无实体	Word n-grams	0.97	0.91	0.95	0.9
法语机器翻译	function_words_fr	0.88	0.84	0.81	0.72
法语机器翻译	pronouns_fr	0.85	0.85	0.74	0.71
法语机器翻译	PoS n-grams	0.94	0.87	0.84	0.78
法语机器翻译	selected_pos_ngrams_fr	0.83	0.73	0.77	0.66
法语机器翻译无实体	Word n-grams	0.99	0.91	0.95	0.9

搜集汇总

数据集介绍

构建方式

该数据集的构建基于欧洲议会的文件，涵盖了不同方言背景的文本。每个文档包含约2000个单词，分为66个句子，并以`*.chnk`文件格式存储，句子之间通过`#%`分隔。原始索引存储在`*.orig_idx`文件中，而经过打乱顺序的文档则保存在`*.shf`文件中。训练集和测试集的划分依据类别进行，每个测试集包含40个文档，训练集则最多包含197个文档，确保每个类别（如苏格兰、英格兰等）的样本量均衡。

使用方法

使用该数据集时，首先需安装必要的依赖库，如Spacy，并下载相应的语言模型。用户可以通过运行`split_extract.py`脚本将原始文件分割为块，或直接使用已发布的训练测试集。通过`make_pos_dirs.py`脚本，用户可以生成词性标注和去实体化的文本文件。进一步的文本分类实验可通过运行`en_classifications.py`和`fr_classifications.py`脚本进行，这些脚本支持多种特征配置，如功能词、代词和n-grams等，帮助用户深入分析方言特征在不同语言中的表现。

背景与挑战

背景概述

Dialectal Varieties数据集由senisioi团队创建，旨在研究不同方言变体在文本分类中的表现。该数据集包含来自英格兰、爱尔兰、苏格兰以及欧盟的文档，每篇文档约2000字，分为66个句子。数据集的核心研究问题是通过功能词、代词、词性标注（PoS）n-grams以及词n-grams等特征，探讨不同方言在文本分类中的差异。该数据集对自然语言处理领域，尤其是方言识别和机器翻译研究具有重要影响，为跨语言文本分类提供了丰富的实验数据。

当前挑战

Dialectal Varieties数据集在构建和应用过程中面临多重挑战。首先，方言识别本身具有复杂性，不同地区的语言变体在词汇、语法和表达方式上存在细微差异，如何有效捕捉这些差异并构建高精度的分类模型是一个关键问题。其次，数据集的构建过程中，文档的预处理和特征提取需要大量计算资源，尤其是在生成词性标注和实体替换版本时，处理大规模文本数据的效率成为瓶颈。此外，机器翻译过程中如何保留源语言的方言特征，并在目标语言中准确表达，也是数据集应用中的一个重要挑战。这些挑战不仅影响了数据集的构建效率，也对后续的文本分类实验提出了更高的技术要求。

常用场景

经典使用场景

在语言学和自然语言处理领域，`dialectal_varieties`数据集被广泛用于研究方言变体的语言特征及其在文本分类中的应用。该数据集通过包含来自不同地区的文档，如英格兰、苏格兰、爱尔兰和欧盟的文本，为研究者提供了一个丰富的语言资源库，用于分析方言间的差异和共性。特别是在多语言环境下，该数据集能够帮助研究者理解方言标记在机器翻译中的保留情况，从而优化翻译模型的表现。

解决学术问题

`dialectal_varieties`数据集解决了方言识别和分类中的关键问题。通过提供详细的文本数据和语言特征，如功能词、代词和词性标注，研究者能够开发出高效的分类模型，用于区分不同方言的文本。此外，该数据集还揭示了方言标记在跨语言翻译中的保留机制，为机器翻译领域提供了新的研究方向。这些研究成果不仅推动了语言学理论的发展，也为自然语言处理技术的进步提供了重要支持。

实际应用

在实际应用中，`dialectal_varieties`数据集被用于开发智能文本分类系统，特别是在多语言内容管理和信息检索领域。例如，新闻机构可以利用该数据集训练模型，自动识别和分类来自不同地区的新闻文本，从而提高内容分发的精准度。此外，该数据集还被应用于教育领域，帮助语言学习者更好地理解方言差异，提升跨文化交流能力。这些应用展示了该数据集在现实世界中的广泛价值和潜力。

数据集最近研究