Murre24

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/Helsinki-NLP/murre24

下载链接

链接失效反馈

官方服务：

资源简介：

Murre24是一个手动标注的数据集，用于识别芬兰最大的互联网论坛Suomi24中的芬兰语方言。数据集包含了标准与非标准芬兰语数据，以及最终的方言识别结果。

Murre24 is a manually annotated dataset designed for the identification of Finnish dialects within Suomi24, the largest internet forum in Finland. The dataset encompasses both standard and non-standard Finnish language data, along with the final dialect identification outcomes.

创建时间：

2024-03-25

原始信息汇总

数据集概述

名称: Murre24: Dialect Identification of Finnish Internet Forum Messages
描述: 该数据集包含来自芬兰最大的互联网论坛Suomi24的手动标注的芬兰方言信息，以及用于分类和评估的脚本。

数据内容

手动标注: 位于S24文件夹中，包含标准与非标准芬兰语数据以及最终的方言识别结果。
自动标注: 结果以消息ID形式展示在dialect_annotations文件夹中。

标注细节

标注标签: 包括colloquial (CO), epj (SO), häme (HÄ), kaakko (SE), kpj (NO), lounais (SW), ppj (FN), savo (SA), stadi (HE)。

训练数据

Murreviikko: 原始数据来源: https://github.com/Helsinki-NLP/murreviikko
SKN: 原始数据下载: https://korp.csc.fi/download/SKN/skn-vrt/
Finnish Wikipedia 2017: 原始数据下载: https://www.kielipankki.fi/lexical-conceptual-resources/wikipedia-fi-2017/

脚本

分类与评估脚本: 位于scripts文件夹中。

引用信息

作者: Olli Kuparinen
出版: 2024年联合国际计算语言学、语言资源与评估会议(LREC-COLING 2024)
页面: 12003–12015
链接: https://aclanthology.org/2024.lrec-main.1048/

搜集汇总

数据集介绍

构建方式

Murre24数据集的构建基于对芬兰最大互联网论坛Suomi24中的消息进行手动和自动注释。手动注释部分位于`S24`文件夹中，分为标准与非标准芬兰语数据和最终方言识别两个子文件夹。自动注释结果以消息ID形式存储在`dialect_annotations`文件夹中。此外，数据集还整合了Murreviikko、SKN和芬兰维基百科2017三个额外数据集，以增强训练效果。

特点

Murre24数据集的显著特点在于其丰富的方言标签和多源数据整合。手动注释提供了详细的方言分类，包括口语化（CO）、东部芬兰语（SO）、哈梅（HÄ）等。自动注释则通过消息ID提供了高效的方言识别结果。此外，数据集的构建还结合了多个外部数据集，确保了训练数据的多样性和广泛性。

使用方法

使用Murre24数据集时，用户可访问`S24`文件夹中的手动注释数据，或利用`dialect_annotations`文件夹中的消息ID进行自动注释结果的检索。此外，`scripts`文件夹中提供了用于分类和评估的脚本，便于用户进行进一步的分析和模型训练。使用时需遵循相关数据来源的引用要求，确保学术使用的合规性。

背景与挑战

背景概述

Murre24数据集由Olli Kuparinen于2024年创建，旨在解决芬兰互联网论坛消息的方言识别问题。该数据集基于Suomi24论坛，芬兰最大的互联网论坛，包含了手动和自动标注的方言信息。主要研究人员和机构包括赫尔辛基自然语言处理（Helsinki-NLP）团队，他们通过结合多种数据源，如Murreviikko、SKN和芬兰维基百科2017年数据，构建了一个全面的方言识别训练集。Murre24不仅为芬兰语方言研究提供了宝贵的资源，还推动了计算语言学和语言资源评估领域的发展。

当前挑战

Murre24数据集在构建过程中面临多项挑战。首先，方言识别本身是一个复杂的问题，涉及语言变体的细微差别和多样性。其次，数据的手动标注需要高度专业化的知识，以确保标注的准确性和一致性。此外，整合来自不同来源的数据，如Murreviikko、SKN和芬兰维基百科，需要解决数据格式和标注标准不一致的问题。最后，自动标注的结果需要与手动标注进行对比和校正，以提高识别的准确性。这些挑战不仅影响了数据集的质量，也对其在实际应用中的效果提出了考验。

常用场景

经典使用场景

在语言学研究领域，Murre24数据集因其对芬兰语方言的精确识别而备受瞩目。该数据集通过收集和标注来自Suomi24论坛的大量消息，为研究者提供了一个丰富的资源库，用以分析和识别芬兰语的不同方言。其经典使用场景包括方言识别模型的训练与评估，以及方言特征的深入分析，从而推动了芬兰语方言学的研究进展。

衍生相关工作

基于Murre24数据集，研究者们开展了一系列相关工作。例如，有研究利用该数据集开发了新的方言识别算法，显著提高了识别精度。同时，也有学者利用这些数据进行跨方言的语义分析，揭示了方言间的语义差异。这些工作不仅丰富了芬兰语方言学的研究内容，也为其他语言的方言研究提供了宝贵的参考。

数据集最近研究