SLIDE

Name: SLIDE
Creator: 奥斯陆大学信息学系
Published: 2025-02-11 01:16:55
License: 暂无描述

arXiv2025-02-11 更新2025-02-12 收录

下载链接：

https://github.com/ltgoslo/slide

下载链接

链接失效反馈

官方服务：

资源简介：

SLIDE数据集是一个针对丹麦语、挪威语Bokmål、挪威语Nynorsk和瑞典语四种语言的句子级多标签语言识别评估数据集。该数据集由奥斯陆大学信息学系创建，包含手动校正的多标签语言识别数据，旨在解决句子的多语言识别问题，适用于评估传统多类语言识别方法和多标签方法的性能。

提供机构：

奥斯陆大学信息学系

创建时间：

2025-02-11

原始信息汇总

SLIDE数据集概述

数据集名称：SLIDE
相关论文：Multi-label Scandinavian Language Identification (SLIDE)
论文状态：已接受至RESOURCEFUL-2025
arXiv论文链接：http://arxiv.org/abs/2502.06692
数据及代码状态：正在添加中

搜集汇总

数据集介绍

构建方式

SLIDE数据集的构建采用了一种创新的方法，结合了手动标注和自动标注技术。首先，从Universal Dependencies树库中提取句子，并为其分配相应的语言标签。然后，通过自动过滤和人工检查相结合的方式，在验证集和测试集中识别多标签实例。此外，为了扩大训练集，使用机器翻译模型自动为单标签数据集添加多标签标注。数据增强技术也被应用于训练数据，包括随机添加标点符号、使用正则表达式规范化URL和电子邮件地址、以及交换命名实体。最后，使用NorBERT3模型系列进行微调，以训练具有不同复杂性的语言识别模型。

特点

SLIDE数据集的主要特点在于其多标签性质，能够同时识别多种斯堪的纳维亚语言。该数据集包含了丹麦语、挪威博克马尔语、挪威尼诺斯克语和瑞典语四种语言。数据集包含手动标注的验证集和测试集，以及自动标注的训练集。此外，SLIDE数据集还提供了一系列具有不同速度和准确率权衡的语言识别模型，包括基于微调的BERT模型和基于FastText嵌入的小型快速模型。这些模型为研究人员提供了不同的选择，以满足不同的需求和限制。

使用方法

SLIDE数据集的使用方法如下：首先，用户可以从GitHub上获取数据集、源代码和模型。然后，根据需要选择合适的模型进行语言识别任务。对于需要高准确性的任务，可以选择基于微调的BERT模型。对于需要快速推理的任务，可以选择基于FastText嵌入的小型快速模型。此外，SLIDE数据集还提供了两种评估方法，用于评估传统多类语言识别方法和多标签方法的性能。用户可以根据需要选择合适的评估方法来评估模型的性能。

背景与挑战

背景概述

SLIDE数据集的研究背景是在处理斯堪的纳维亚语系的语言识别问题，这些语言包括丹麦语、挪威博克马尔语、挪威尼诺斯克语和瑞典语。由于这些语言之间的高度相似性，传统的单标签语言识别方法难以准确区分。SLIDE数据集由奥斯陆大学信息系的Mariia Fedorova等研究人员于2025年创建，旨在为这些语言提供一个手动校准的多标签评估数据集，并开发了一系列具有不同速度-准确性权衡的语言识别模型。SLIDE数据集的创建对于多标签语言识别方法的研究具有重要意义，为相关领域的研究提供了宝贵的资源和工具。

当前挑战

SLIDE数据集相关的挑战主要包括：1)在句子级别上准确识别斯堪的纳维亚语系中紧密相关的语言；2)构建过程中所遇到的挑战，例如手动创建多标签数据集的成本高昂，以及如何利用现有资源自动标注大规模的训练数据。此外，由于斯堪的纳维亚语系中的语言相似度较高，模型在区分不同语言时可能会出现混淆，尤其是在处理包含专有名词、数字和单词的句子时。为了解决这些问题，SLIDE数据集采用了创新的银标签方法，利用现有的机器翻译模型自动标注数据集，并通过数据增强技术提高模型的鲁棒性。

常用场景

经典使用场景

SLIDE数据集的经典使用场景在于多标签斯堪的纳维亚语言识别。该数据集涵盖了丹麦语、挪威博克马尔语、挪威尼诺斯克语和瑞典语四种语言，适用于需要精确区分这些密切相关语言的场景。在处理大量文本时，SLIDE数据集可以帮助研究人员和开发人员构建语言识别模型，以提高预处理效率。

解决学术问题

SLIDE数据集解决了在句子级别识别密切相关语言这一学术研究问题。由于这些语言之间的相似性，传统的单标签语言识别方法往往难以准确区分。SLIDE数据集通过多标签分类任务的方式，允许同时识别多个语言，从而提高了识别准确性。此外，SLIDE数据集还解决了在现有语言识别工具中，难以处理句子同时有效于多种语言的问题。

衍生相关工作

SLIDE数据集衍生了许多相关工作，包括基于BERT模型的语言识别模型、基于FastText嵌入的快速模型以及新的多标签语言识别方法。这些工作进一步扩展了SLIDE数据集的应用范围，并为相关领域的研究提供了新的思路和方法。此外，SLIDE数据集还促进了多标签语言识别技术的发展，为相关领域的研究和开发提供了有力支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集