five

SLIDE

收藏
arXiv2025-02-11 更新2025-02-12 收录
下载链接:
https://github.com/ltgoslo/slide
下载链接
链接失效反馈
官方服务:
资源简介:
SLIDE数据集是一个针对丹麦语、挪威语Bokmål、挪威语Nynorsk和瑞典语四种语言的句子级多标签语言识别评估数据集。该数据集由奥斯陆大学信息学系创建,包含手动校正的多标签语言识别数据,旨在解决句子的多语言识别问题,适用于评估传统多类语言识别方法和多标签方法的性能。
提供机构:
奥斯陆大学信息学系
创建时间:
2025-02-11
原始信息汇总

SLIDE数据集概述

  • 数据集名称:SLIDE
  • 相关论文:Multi-label Scandinavian Language Identification (SLIDE)
  • 论文状态:已接受至RESOURCEFUL-2025
  • arXiv论文链接http://arxiv.org/abs/2502.06692
  • 数据及代码状态:正在添加中
搜集汇总
数据集介绍
main_image_url
构建方式
SLIDE数据集的构建采用了一种创新的方法,结合了手动标注和自动标注技术。首先,从Universal Dependencies树库中提取句子,并为其分配相应的语言标签。然后,通过自动过滤和人工检查相结合的方式,在验证集和测试集中识别多标签实例。此外,为了扩大训练集,使用机器翻译模型自动为单标签数据集添加多标签标注。数据增强技术也被应用于训练数据,包括随机添加标点符号、使用正则表达式规范化URL和电子邮件地址、以及交换命名实体。最后,使用NorBERT3模型系列进行微调,以训练具有不同复杂性的语言识别模型。
特点
SLIDE数据集的主要特点在于其多标签性质,能够同时识别多种斯堪的纳维亚语言。该数据集包含了丹麦语、挪威博克马尔语、挪威尼诺斯克语和瑞典语四种语言。数据集包含手动标注的验证集和测试集,以及自动标注的训练集。此外,SLIDE数据集还提供了一系列具有不同速度和准确率权衡的语言识别模型,包括基于微调的BERT模型和基于FastText嵌入的小型快速模型。这些模型为研究人员提供了不同的选择,以满足不同的需求和限制。
使用方法
SLIDE数据集的使用方法如下:首先,用户可以从GitHub上获取数据集、源代码和模型。然后,根据需要选择合适的模型进行语言识别任务。对于需要高准确性的任务,可以选择基于微调的BERT模型。对于需要快速推理的任务,可以选择基于FastText嵌入的小型快速模型。此外,SLIDE数据集还提供了两种评估方法,用于评估传统多类语言识别方法和多标签方法的性能。用户可以根据需要选择合适的评估方法来评估模型的性能。
背景与挑战
背景概述
SLIDE数据集的研究背景是在处理斯堪的纳维亚语系的语言识别问题,这些语言包括丹麦语、挪威博克马尔语、挪威尼诺斯克语和瑞典语。由于这些语言之间的高度相似性,传统的单标签语言识别方法难以准确区分。SLIDE数据集由奥斯陆大学信息系的Mariia Fedorova等研究人员于2025年创建,旨在为这些语言提供一个手动校准的多标签评估数据集,并开发了一系列具有不同速度-准确性权衡的语言识别模型。SLIDE数据集的创建对于多标签语言识别方法的研究具有重要意义,为相关领域的研究提供了宝贵的资源和工具。
当前挑战
SLIDE数据集相关的挑战主要包括:1)在句子级别上准确识别斯堪的纳维亚语系中紧密相关的语言;2)构建过程中所遇到的挑战,例如手动创建多标签数据集的成本高昂,以及如何利用现有资源自动标注大规模的训练数据。此外,由于斯堪的纳维亚语系中的语言相似度较高,模型在区分不同语言时可能会出现混淆,尤其是在处理包含专有名词、数字和单词的句子时。为了解决这些问题,SLIDE数据集采用了创新的银标签方法,利用现有的机器翻译模型自动标注数据集,并通过数据增强技术提高模型的鲁棒性。
常用场景
经典使用场景
SLIDE数据集的经典使用场景在于多标签斯堪的纳维亚语言识别。该数据集涵盖了丹麦语、挪威博克马尔语、挪威尼诺斯克语和瑞典语四种语言,适用于需要精确区分这些密切相关语言的场景。在处理大量文本时,SLIDE数据集可以帮助研究人员和开发人员构建语言识别模型,以提高预处理效率。
解决学术问题
SLIDE数据集解决了在句子级别识别密切相关语言这一学术研究问题。由于这些语言之间的相似性,传统的单标签语言识别方法往往难以准确区分。SLIDE数据集通过多标签分类任务的方式,允许同时识别多个语言,从而提高了识别准确性。此外,SLIDE数据集还解决了在现有语言识别工具中,难以处理句子同时有效于多种语言的问题。
衍生相关工作
SLIDE数据集衍生了许多相关工作,包括基于BERT模型的语言识别模型、基于FastText嵌入的快速模型以及新的多标签语言识别方法。这些工作进一步扩展了SLIDE数据集的应用范围,并为相关领域的研究提供了新的思路和方法。此外,SLIDE数据集还促进了多标签语言识别技术的发展,为相关领域的研究和开发提供了有力支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作