five

Swedish manually annotated NER

收藏
github2023-12-14 更新2024-05-31 收录
下载链接:
https://github.com/klintan/swedish-ner-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
来自Spraakbanken的2012年网络新闻,半手动标注并适配用于CoreNLP瑞典语NER。半手动定义为:从瑞典地名录引导,然后由两位独立的母语为瑞典语的标注者手动校正/审查。未计算标注者一致性。可能仍存在数据质量问题和不平衡的类别。

The 2012 web news from Spraakbanken, semi-manually annotated and adapted for CoreNLP Swedish NER. Semi-manual is defined as: guided by the Swedish place name directory, then manually corrected/reviewed by two independent native Swedish annotators. Inter-annotator agreement was not calculated. There may still be data quality issues and imbalanced categories.
创建时间:
2015-11-08
原始信息汇总

瑞典语手动标注的NER数据集概述

数据集来源

  • 数据集来源于Spraakbanken的Webbnyheter 2012。

标注方法

  • 数据集采用半手动标注方法,首先从瑞典语地名词典中引导,随后由两位独立的母语为瑞典语的标注者手动校正和审查。

标注一致性

  • 未计算标注者之间的一致性。

数据质量

  • 数据可能存在质量问题和类别不平衡。

类别划分

  • 数据集包含四个类别:PER(人名)、ORG(组织名)、LOC(地点名)和MISC(杂项)。

错误反馈

  • 如发现错误,建议创建拉取请求以供修正。
搜集汇总
数据集介绍
main_image_url
构建方式
Swedish manually annotated NER数据集的构建过程采用了半自动化的方法。初始阶段,数据集通过瑞典地名录进行自举(bootstrap)生成,随后由两位独立的母语为瑞典语的标注者进行手动校正和审查。这一过程确保了数据的准确性和可靠性,尽管未进行标注者一致性计算,但通过双重审查机制,显著提升了数据的质量。
使用方法
Swedish manually annotated NER数据集适用于瑞典语命名实体识别任务的研究与开发。用户可以通过访问Spraakbanken的官方网站获取数据集,并根据需要进行下载和使用。若在数据使用过程中发现错误,用户可通过提交pull request的方式参与数据集的改进,从而共同提升数据集的质量。
背景与挑战
背景概述
Swedish manually annotated NER数据集由瑞典的Språkbanken机构于2012年创建,旨在为瑞典语命名实体识别(NER)任务提供高质量的标注数据。该数据集基于Webbnyheter 2012语料库,经过半自动化的标注过程,即首先通过瑞典地名录进行初步标注,随后由两名独立的瑞典语母语标注者进行手动校正和审查。尽管未计算标注者间的一致性,但该数据集在瑞典语自然语言处理领域具有重要影响力,尤其是在命名实体识别任务中,涵盖了PER(人名)、ORG(组织名)、LOC(地名)和MISC(其他)四种类别。
当前挑战
Swedish manually annotated NER数据集在构建和应用过程中面临多重挑战。首先,尽管经过手动校正,数据集中仍可能存在质量问题和类别不平衡现象,这对模型的训练和评估提出了挑战。其次,由于标注过程依赖于地名录的初步标注,可能导致某些实体类型的覆盖不足或错误标注。此外,瑞典语作为一门形态丰富的语言,其复杂的语法结构和词汇变化进一步增加了命名实体识别的难度。这些挑战不仅影响了数据集的整体质量,也对相关领域的研究提出了更高的要求。
常用场景
经典使用场景
Swedish manually annotated NER数据集在自然语言处理领域中被广泛用于瑞典语命名实体识别(NER)的研究。该数据集通过半自动化的方式标注了新闻文本中的命名实体,涵盖了人物(PER)、组织(ORG)、地点(LOC)和其他(MISC)四大类别。研究人员通常利用该数据集来训练和评估瑞典语NER模型,特别是在处理瑞典语文本时,该数据集提供了高质量的标注数据,帮助提升模型的准确性和鲁棒性。
解决学术问题
该数据集解决了瑞典语命名实体识别中的标注数据稀缺问题。由于瑞典语资源相对较少,高质量的标注数据集尤为珍贵。通过提供经过人工校正的标注数据,Swedish manually annotated NER数据集为研究人员提供了可靠的基准,使得他们能够更有效地开发针对瑞典语的NER模型,并推动该领域的研究进展。
实际应用
在实际应用中,Swedish manually annotated NER数据集被广泛应用于瑞典语文本的信息提取任务。例如,新闻机构可以利用该数据集训练模型,自动识别新闻中的关键实体,从而提升新闻分类和检索的效率。此外,该数据集还可用于构建瑞典语的智能助手,帮助用户快速获取相关信息,提升用户体验。
数据集最近研究
最新研究方向
在自然语言处理领域,瑞典语命名实体识别(NER)数据集的研究正逐渐成为热点。Swedish manually annotated NER数据集通过半自动标注和人工校对的方式,提供了高质量的瑞典语文本标注数据,涵盖了人名(PER)、组织名(ORG)、地名(LOC)和其他类别(MISC)。近年来,随着多语言模型的兴起,该数据集被广泛应用于跨语言NER任务的研究中,特别是在低资源语言环境下,如何通过迁移学习提升模型性能成为关键研究方向。此外,数据集中可能存在的不平衡类别问题也引发了学术界对数据增强和类别平衡技术的关注,这些研究不仅推动了瑞典语NER技术的发展,也为其他低资源语言的NER任务提供了宝贵的经验。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作